Tag: pdfbox

PDFBox删除评论保持删除线

我有一个PDF,对段落有评论。 这一段很艰难。 我的要求是从特定页面删除命令。 以下代码应从我的PDF中删除特定注释,但事实并非如此。 PDDocument document = PDDocument.load(…File…); List annotations = new ArrayList(); PDPageTree allPages = document.getDocumentCatalog().getPages(); for (int i = 0; i < allPages.getCount(); i++) { PDPage page = allPages.get(i); annotations = page.getAnnotations(); List annotationToRemove = new ArrayList(); if (annotations.size() < 1) continue; else { for (PDAnnotation annotation : annotations) { if (annotation.getContents() != […]

检测是否使用OCR从扫描的文档创建PDF

我想知道是否使用OCR从扫描的文档创建了PDF。 为了使扫描文档中的文本可以选择,我猜相同的文本是使用透明颜色,特殊字体,… 我正在使用pdfbox,我看了字体,颜色和许多其他属性,我没有找到任何特别的东西。

使用java比较两个pdf文件(方法)

我需要编写一个比较两个pdf文件的java类,并使用某种突出显示指出差异(文本/位置/字体的差异)。 我最初的方法是使用pdfbox使用pdfbox解析文件,并使用一些数据结构存储提取的文本,这将有助于我进行比较。 是否有任何java库可以提取文本,保留格式,帮助我索引和比较。我可以使用tika / google的差异匹配。 tika以xhtml的forms提取文本,但我如何比较两个xhtml文件?

java.lang.NoClassDefFoundError:org / fontbox / afm / FontMetric

我使用的是pdfbox-0.7.3.jar。 我知道缺少相关的类文件属于JAR pdfbox-0.7.3但是当我附加源文件时。 继续显示缺少.class文件。 我正在寻找有关以下错误的建议。 import java.io.File; import java.io.FileInputStream; import java.io.IOException; import org.pdfbox.cos.COSDocument; import org.pdfbox.pdfparser.PDFParser; import org.pdfbox.pdmodel.PDDocument; import org.pdfbox.util.PDFTextStripper; import java.lang.NoClassDefFoundError; import java.util.Scanner; public class ggg{ public static void main(String args[]) { // PDFTextStripper pdfStripper = null; // PDDocument pdDoc = null; // COSDocument cosDoc = null; File file = new File(“C:\\Users\\firstfile.pdf”); try { PDFParser […]

如何使用PDFBox将图标导入PDF中的按钮字段?

我正在寻找一种方法来将PDF文件中按钮字段的正常外观设置为图像文件,但是没有找到有关此过程的任何信息。 我能找到的最接近的是相反的,即如何从按钮字段中提取图标到独立的图像文件,这里: 我如何使用Apache PDFBox从PDF中的按钮图标中提取图像? 我更喜欢使用PDFBox来完成这项任务。 任何帮助是极大的赞赏。

PDFBox表单填写 – saveIncremental不起作用

我有一个pdf文件,其中包含一些我希望从java填写的表单字段。 现在我正试图填写一个我正在寻找的forms。 我的代码如下所示: File file = new File(“c:/Testy/luxmed/Skierowanie3.pdf”); PDDocument document = PDDocument.load(file); PDDocumentCatalog doc = document.getDocumentCatalog(); PDAcroForm Form = doc.getAcroForm(); String formName = “topmostSubform[0].Page1[0].pana_pania[0]”; PDField f = Form.getField(formName); setField(document, formName, “Artur”); System.out.println(“New value 2nd: ” + f.getValueAsString()); document.saveIncremental(new FileOutputStream(“c:/Testy/luxmed/nowy_pd3.pdf”)); document.close(); 和这个: public static void setField(PDDocument pdfDocument, String name, String Value) throws IOException { PDDocumentCatalog docCatalog […]

如何使用pdfbox获取PDF表单文本字段的内容?

我正在使用它来使用org.apache.pdfbox获取PDF文件的文本 File f = new File(fileName); if (!f.isFile()) { System.out.println(“File ” + fileName + ” does not exist.”); return null; } try { parser = new PDFParser(new FileInputStream(f)); } catch (Exception e) { System.out.println(“Unable to open PDF Parser.”); return null; } try { parser.parse(); cosDoc = parser.getDocument(); pdfStripper = new PDFTextStripper(); pdDoc = new PDDocument(cosDoc); […]

pdfbox和itext使用不正确的dpi提取图像

当我使用pdfbox提取图像时,我得到的图像的dpi不正确。 当我使用Photoshop或Acrobat Reader Pro提取图像时,我可以看到使用Windows照片查看器的图像的dpi为200,但是当我使用pdfbox提取图像时,dpi为72。 为了提取图像我使用以下代码: 无法从PDFA1-格式文档中提取图像 当我查看日志时,我看到一个不寻常的条目:2015-01-23-main – DEBUG-org.apache.pdfbox.util.TIFFUtil: 我尝试谷歌,但我可以看到通过此日志找出pdfbox的含义。 这是什么意思? 您可以从以下链接下载带有此问题的示例pdf: http : //myslams.com/test/1.pdf 我甚至尝试过itext,但是用96 dpi提取图像。 难道我做错了什么? 或pdfbox和itext有这个限制?

用于PDF到图像转换的开源库

可能重复: 将PDF页面导出为Java中的一系列图像 请建议一些好的java库,它们可用于PDF文件进行图像转换。 我尝试使用PDFBox: http : //pdfbox.apache.org/但转换成图像后,我的pdf文件中的大部分文本都出现乱码。 它将’T’读作’Y’,’C’作为’#’,依此类推。 以下是我用于相同的代码片段: PDDocument document = null; document = PDDocument.load( pdfFile ); List pages = document.getDocumentCatalog().getAllPages(); for( int i=startPage-1; i<endPage && i<pages.size(); i++ ) { try { PDPage page = (PDPage)pages.get( i ); BufferedImage image = page.convertToImage(); } } document.close(); 我想这是他们渲染字体的一些问题。 如果你认为我在使用PDFBox时可能遗漏了一些东西,请告诉我。 请建议任何其他替代方案。 我已经尝试过使用jPedal: http ://www.jpedal.org/虽然运行良好,但它不是免费的,所以请在此建议所有好的选择。

如何将pdf中的图像坐标转换为JSONfile?

我已编码创建html页面包含图像提取pdf文档中的页面。 我试图从pdf中提取图像然后我成功地从pdf中提取图像并使用PDFBox lib将图像应用到html页面。 但是我没有在html页面中提取图像坐标。 所以搜索了如何在pdf中提取图像坐标,我尝试使用PDFBox库提取pdf中的图像坐标。 下面的代码: public static void main(String[] args) throws Exception { try { PDDocument document = PDDocument.load( “/Users/tmdtjq/Downloads/PDFTest/test.pdf” ); PrintImageLocations printer = new PrintImageLocations(); List allPages = document.getDocumentCatalog().getAllPages(); for( int i=0; i<allPages.size(); i++ ) { PDPage page = (PDPage)allPages.get( i ); int pageNum = i+1; System.out.println( "Processing page: " + pageNum ); […]