Tag: pdf

PDF页面的缩略图（Java）: 如何使用Java生成PDF文档中页面的缩略图？

如何从PDF文件中删除所有图像/绘图并仅以Java格式保留文本？: 我有一个PDF文件，它是OCR处理器的输出，这个OCR处理器识别图像，将文本添加到pdf但最后放置一个低质量的图像而不是原始图像（我不知道为什么有人会这样做，但他们这样做）。所以，我想得到这个PDF，删除图像流并保留文本，这样我就可以得到它并导入（使用iText页面导入function）到PDF我用真实图像创建自己。在有人要求之前，我已经尝试使用其他工具来提取文本坐标（JPedal），但是当我在PDF上绘制文本时，它与原始文本的位置不同。我宁愿在Java中完成这项工作，但如果其他工具可以做得更好，请告诉我。它可能只是图像删除，我可以使用带有图纸的PDF。

如何在Java中使用XML创建PDF？: 目前，我正在用Java创建一个XML文件，并通过使用XSL / XSLT转换它在JSP页面中显示它。现在我需要获取该XML文件并在PDF中显示相同的信息。有没有办法通过使用某种XSL文件来做到这一点？我见过iText Java-PDF库，但我找不到任何方法可以将它与XML和样式表一起使用。任何援助将不胜感激。提前致谢！

pdfBox – 签名有效性复选标记在Acrobat阅读器中不可见: 我正在使用此作为参考向pdf添加可视签名 – https://stackoverflow.com/a/27940667/7103795 我能够正确打印细节。但是，在Acrobat中打开时，pdf不会显示绿色勾号，尽管它是“已签名且所有签名都有效”。在签名面板中。这是我需要的一个例子：如何确保出现有效性标志？我使用的是pdfBox版本2.0.1

Java的PDF库: 有没有人知道一个很好的PDF pdf库？我的具体要求是在pdf文件中找到文本的坐标。如果有人知道，一些指针将有所帮助。

如何使用java从pdf文件中获取原始文本: 我有一些pdf文件，使用pdfbox我已将它们转换为文本并存储到文本文件中，现在从我要删除的文本文件超链接所有特殊字符空白行标题页脚的pdf文件 “1）”，“2）”，“a）”，“子弹”等我想逐行获得有效的文本，如下所示：我们提出了OntoGain，一种从纯文本中提取的多词概念术语进行本体学习的方法。 OntoGain遵循由不同处理层定义的本体学习过程。在简单术语提取的基础上，通过聚类提取的概念来形成概念层次结构。然后，衍生的术语分类法充满了非分类关系。已经研究了几种不同的最先进的方法来实现每一层。 OntoGain基于多词术语概念，因为多词或复合词具有比普通单词词更加坚实和独特的语义。我们选择了层次聚类方法和forms概念分析（FCA）算法来构建术语分类法。此外，应用关联规则算法来揭示非分类关系。还实现了一种尝试在关系概念之间执行最合适的泛化级别的方法。为了显示概念certificate，实现了系统原型。 OntoGain允许使用Jena Semantic Web Frame-work1将派生的本体转换为OWL。 OntoGain应用于医学和计算机语料库这两个独立的数据源，并将其结果与Text2Onto（一种最先进的本体学习方法）获得的类似结果进行比较。对11.5 CCD1.1结果的分析表明，OntoGain在精度方面比Text20nto表现更好，提取更正确的概念，而更有选择性地提取更少但更合理的概念。我怎样才能做到这一点？

如何使用iText java读取PDF中的表格？: 我对使用java的pdf处理不太了解。我想使用iText java库读取PDF文件中的表。如何进行？

如何在使用iText创建的PDF中显示阿拉伯语: 我需要您的帮助来显示阿拉伯语内容，并在我尝试创建的PDF示例中从右到左开始编写。以下是示例代码： public static void main(String[] args) throws IOException { try { BaseFont ArialBase = BaseFont.createFont(“C:\\Users\\dell\\Desktop\\arialbd.ttf”, BaseFont.IDENTITY_H, true); Font ArialFont = new Font(ArialBase, 20); Document document = new Document(PageSize.LETTER); PdfWriter.getInstance(document, new FileOutputStream(“C:\\Users\\dell\\Desktop\\HelloWorld.pdf”)); document.setMargins(72f, 72f, 72f, 0f); document.open(); document.add(new Paragraph(“الموقع الإلكتروني,”,ArialFont)); document.close(); System.out.println(“PDF Completed”); } catch (DocumentException e) { e.printStackTrace(); } catch (FileNotFoundException e) { e.printStackTrace(); […]

在PDF中搜索单词并使用iText在android中提取它: 我最近下载了iText 5.3.3，我在使用它时遇到了一些麻烦。我使用哪些类来搜索单词并从PDF中提取它们并在Android中显示文本？我已经看过类PdfTextExtractor ，我想知道在类中有一个带有TextExtractionStrategy strategy参数的方法。他们指的是什么TextExtractionStrategy？ public static String getTextFromPage(PdfReader reader, int pageNumber, TextExtractionStrategy strategy)

iText pdf在使用NOTO字体或Source Hans时不显示中文字符: 我正在尝试使用NOTO字体（ https://www.google.com/get/noto/ ）来显示中文字符。这是我的示例代码，来自iText的修改示例代码。 public void createPdf(String filename) throws IOException, DocumentException { Document document = new Document(); PdfWriter.getInstance(document, new FileOutputStream(filename)); document.open(); //This is simple English Font FontFactory.register(“c:/temp/fonts/NotoSerif-Bold.ttf”, “my_nato_font”); Font myBoldFont = FontFactory.getFont(“my_nato_font”); BaseFont bf = myBoldFont.getBaseFont(); document.add(new Paragraph(bf.getPostscriptFontName(), myBoldFont)); //This is Chinese font //Option 1 : Font myAdobeTypekit = FontFactory.getFont(“SourceHanSansSC-Regular”, BaseFont.IDENTITY_H, BaseFont.NOT_EMBEDDED); //Option 2 : […]