Tag: pdf

使用Apache Tika在solr中的PDF文件的ContentExtraction

我试图使用以下教程http://wiki.apache.org/solr/ExtractingRequestHandler索引solr中的PDF文件但是每次我发出命令 java -jar post.jar *.pdf 它说一些org.apache.solr.common.SolrException:无效的UTF-8中间字节0xe3错误请帮我将PDF索引到solr server.Is还有其他整合然后tika可以帮助我。

如何将pdf中的图像坐标转换为JSONfile?

我已编码创建html页面包含图像提取pdf文档中的页面。 我试图从pdf中提取图像然后我成功地从pdf中提取图像并使用PDFBox lib将图像应用到html页面。 但是我没有在html页面中提取图像坐标。 所以搜索了如何在pdf中提取图像坐标,我尝试使用PDFBox库提取pdf中的图像坐标。 下面的代码: public static void main(String[] args) throws Exception { try { PDDocument document = PDDocument.load( “/Users/tmdtjq/Downloads/PDFTest/test.pdf” ); PrintImageLocations printer = new PrintImageLocations(); List allPages = document.getDocumentCatalog().getAllPages(); for( int i=0; i<allPages.size(); i++ ) { PDPage page = (PDPage)allPages.get( i ); int pageNum = i+1; System.out.println( "Processing page: " + pageNum ); […]

为什么生成的PDF在Internet Explorer中正常显示,而在FireFox或Chrome中却没有?

我使用lowagie / iTextPDF在Java中生成PDF并且在Firefox和Chrome中显示输出时出现问题,但IE8显示它们很好。 Firefox和Chrome显示乱码,如下所示: %PDF-1.4% 20 ob​​j streamx 1B1C #@ 0# Tm>}Zh nO?8 1 a y ӓB $ :9XC a. / f { $ o – $?ӨӨ^ c / ‘E j }WT / Y <? 5* endstream endobj 4 0 obj >> / MediaBox [0 0 612 1008] / Rotate 90 >> endobj 1 0 […]

pdfptable中的新行

我正在使用iText库在pdf文件中以表格格式打印某些数据。 我有11列,可以有多行。 为每列的标题创建标题后,如何在pdfptable中创建新行,以便我可以在单独的行上打印实际数据。

在flying-saucer的pdf页面之间打破了嵌入的图像

我对图像有一些问题(所有图像都嵌入在html中作为base64字符串)。 我用css img {page-break-inside: avoid;} 它有帮助但并非总是如此。 在某些情况下,可以正确处理相同的图像,而在其他情况下在页面之间划分。 这取决于许多因素,例如: 图像被指定为块元素 以前的图像是或不是块元素 分开之前有一些大的形象 我还注意到,如果问题至少发生一次,那么当文档不适合页面时,文档末尾的所有图像都会被破坏。 我正在使用这种方法将RepleacedElementFactory用于嵌入式图像: http : //www.intelligrape.com/blog/using-data-urls-for-embedding-images-in-flying-saucer-generated-pdfs/ 唯一的区别是我正在改变一些尺寸 public ReplacedElement createReplacedElement(LayoutContext c, BlockBox box, UserAgentCallback uac, int cssWidth, int cssHeight) { Element e = box.getElement(); if (e == null) { return null; } String nodeName = e.getNodeName(); if (nodeName.equals(“img”)) { String attribute = e.getAttribute(“src”); FSImage fsImage; […]

为什么iText的PdfWriter在导出为可运行的jar时会将JTextField打印为黑色?

我有一个奇怪的难题。 我目前正在尝试创建一个我正在研究的Eclipse项目的Runnable Jar,其中包含许多JTextField和JFormattedTextField,它们都很好地安排在JPanel中。 我正在使用这些JPanel并打印出来使用iText的漂亮的PdfWriter。 问题是:在Eclipse中,打印出来就好了。 当我将项目导出到可运行的jar中时,我得到以下内容: 所有这些黑色矩形都是我的JTextField和JFormattedTextField所在的位置。 有谁知道可能导致这种情况的原因是什么? 这就是我打印出来的方式,记住,它在Eclipse中工作,但在导出为runnable jar时却没有: private void print() throws DocumentException, IOException { Document document = new Document(PageSize.LETTER, 0, 0, 0, 0); File file = new File(System.getProperty(“user.home”) + File.separator + “Desktop” + File.separator + “temp.pdf”); if (!file.exists()) { file.createNewFile(); } PdfWriter writer = PdfWriter.getInstance(document, new FileOutputStream(file)); document.open(); PdfContentByte contentByte = writer.getDirectContent(); […]

如何在iText中创建粘贴注释的“回复”

我试图用iText创建粘贴注释的“回复”,有谁知道怎么做? 另一个问题:如何修改注释日期?

如何在java中将jsp页面保存为pdf?

我有一个用JSP构建的页面,struts。这个页面加载了动态内容。 我希望将页面保存为PDF文件,其中包含所有内容和相同格式的单击按钮。 如果我可以保存包含所有内容的页面,我可以转换为PDF。 如何使用pdf格式保存jsp页面? 提前致谢

将PDF文件转换为单个HTML文件

我正在尝试将PDF文档转换为java中的单个HTML文件。 大多数转换器在线将一个PDF文件转换为多个HTML文件。 我想将整个PDF转换为单个HTML文件。 有什么建议么?

如何将n个列导出为Java中的PDF标题?

任何人都可以告诉我如何导出n个列作为Java中PDF的标题? 实际上用户以CSV格式上传文件。 我需要将该文件导出为PDF。 问题是如果CSV文件有1000列作为标题,那么在导出为PDF时如何处理。 编辑:是的我问如何实现布局,意味着我们不能将所有1000列作为标题放在一个页面中…我们可以为pdf页面添加滚动条吗? Edit2:我正在使用itext进行pdf生成。 如何找到最大超限。 如果发生水平滚动没问题。 行也将成千上万。 在这里我可以生成pdf文件,但如果它超过8或10,那么列就会混合在一起,以避免我如何生成水平卷轴?