Tag: pdf

PDF页面的缩略图(Java)

如何使用Java生成PDF文档中页面的缩略图?

如何从PDF文件中删除所有图像/绘图并仅以Java格式保留文本?

我有一个PDF文件,它是OCR处理器的输出,这个OCR处理器识别图像,将文本添加到pdf但最后放置一个低质量的图像而不是原始图像(我不知道为什么有人会这样做,但他们这样做)。 所以,我想得到这个PDF,删除图像流并保留文本,这样我就可以得到它并导入(使用iText页面导入function)到PDF我用真实图像创建自己。 在有人要求之前,我已经尝试使用其他工具来提取文本坐标(JPedal),但是当我在PDF上绘制文本时,它与原始文本的位置不同。 我宁愿在Java中完成这项工作,但如果其他工具可以做得更好,请告诉我。 它可能只是图像删除,我可以使用带有图纸的PDF。

如何在Java中使用XML创建PDF?

目前,我正在用Java创建一个XML文件,并通过使用XSL / XSLT转换它在JSP页面中显示它。 现在我需要获取该XML文件并在PDF中显示相同的信息。 有没有办法通过使用某种XSL文件来做到这一点? 我见过iText Java-PDF库,但我找不到任何方法可以将它与XML和样式表一起使用。 任何援助将不胜感激。 提前致谢!

pdfBox – 签名有效性复选标记在Acrobat阅读器中不可见

我正在使用此作为参考向pdf添加可视签名 – https://stackoverflow.com/a/27940667/7103795 我能够正确打印细节。 但是,在Acrobat中打开时,pdf不会显示绿色勾号,尽管它是“已签名且所有签名都有效”。 在签名面板中。 这是我需要的一个例子: 如何确保出现有效性标志? 我使用的是pdfBox版本2.0.1

Java的PDF库

有没有人知道一个很好的PDF pdf库? 我的具体要求是在pdf文件中找到文本的坐标。 如果有人知道,一些指针将有所帮助。

如何使用java从pdf文件中获取原始文本

我有一些pdf文件,使用pdfbox我已将它们转换为文本并存储到文本文件中,现在从我要删除的文本文件 超链接 所有特殊字符 空白行 标题页脚的pdf文件 “1)”,“2)”,“a)”,“子弹”等 我想逐行获得有效的文本,如下所示: 我们提出了OntoGain,一种从纯文本中提取的多词概念术语进行本体学习的方法。 OntoGain遵循由不同处理层定义的本体学习过程。 在简单术语提取的基础上,通过聚类提取的概念来形成概念层次结构。 然后,衍生的术语分类法充满了非分类关系。 已经研究了几种不同的最先进的方法来实现每一层。 OntoGain基于多词术语概念,因为多词或复合词具有比普通单词词更加坚实和独特的语义。 我们选择了层次聚类方法和forms概念分析(FCA)算法来构建术语分类法。 此外,应用关联规则算法来揭示非分类关系。 还实现了一种尝试在关系概念之间执行最合适的泛化级别的方法。 为了显示概念certificate,实现了系统原型。 OntoGain允许使用Jena Semantic Web Frame-work1将派生的本体转换为OWL。 OntoGain应用于医学和计算机语料库这两个独立的数据源,并将其结果与Text2Onto(一种最先进的本体学习方法)获得的类似结果进行比较。 对11.5 CCD1.1结果的分析表明,OntoGain在精度方面比Text20nto表现更好,提取更正确的概念,而更有选择性地提取更少但更合理的概念。 我怎样才能做到这一点?

如何使用iText java读取PDF中的表格?

我对使用java的pdf处理不太了解。我想使用iText java库读取PDF文件中的表。 如何进行?

如何在使用iText创建的PDF中显示阿拉伯语

我需要您的帮助来显示阿拉伯语内容,并在我尝试创建的PDF示例中从右到左开始编写。 以下是示例代码: public static void main(String[] args) throws IOException { try { BaseFont ArialBase = BaseFont.createFont(“C:\\Users\\dell\\Desktop\\arialbd.ttf”, BaseFont.IDENTITY_H, true); Font ArialFont = new Font(ArialBase, 20); Document document = new Document(PageSize.LETTER); PdfWriter.getInstance(document, new FileOutputStream(“C:\\Users\\dell\\Desktop\\HelloWorld.pdf”)); document.setMargins(72f, 72f, 72f, 0f); document.open(); document.add(new Paragraph(“الموقع الإلكتروني,”,ArialFont)); document.close(); System.out.println(“PDF Completed”); } catch (DocumentException e) { e.printStackTrace(); } catch (FileNotFoundException e) { e.printStackTrace(); […]

在PDF中搜索单词并使用iText在android中提取它

我最近下载了iText 5.3.3,我在使用它时遇到了一些麻烦。 我使用哪些类来搜索单词并从PDF中提取它们并在Android中显示文本? 我已经看过类PdfTextExtractor ,我想知道在类中有一个带有TextExtractionStrategy strategy参数的方法。 他们指的是什么TextExtractionStrategy? public static String getTextFromPage(PdfReader reader, int pageNumber, TextExtractionStrategy strategy)

iText pdf在使用NOTO字体或Source Hans时不显示中文字符

我正在尝试使用NOTO字体( https://www.google.com/get/noto/ )来显示中文字符。 这是我的示例代码,来自iText的修改示例代码。 public void createPdf(String filename) throws IOException, DocumentException { Document document = new Document(); PdfWriter.getInstance(document, new FileOutputStream(filename)); document.open(); //This is simple English Font FontFactory.register(“c:/temp/fonts/NotoSerif-Bold.ttf”, “my_nato_font”); Font myBoldFont = FontFactory.getFont(“my_nato_font”); BaseFont bf = myBoldFont.getBaseFont(); document.add(new Paragraph(bf.getPostscriptFontName(), myBoldFont)); //This is Chinese font //Option 1 : Font myAdobeTypekit = FontFactory.getFont(“SourceHanSansSC-Regular”, BaseFont.IDENTITY_H, BaseFont.NOT_EMBEDDED); //Option 2 : […]