Tag: pdftotext

itext java pdf to text creation

我使用一个itext将pdf转换为文本文件,它实际上很好用但是对于某些单词它做了以下事情:例如在pdf中有一个短语,如“呈现主要想法”但是itext创建一个输出,如“presentthemainideas”。 反正有没有纠正这种行为? String pdf=”/home/can/Downloads/NLP/textSummarization/A New Approach for Multi-Document Update Summarization.pdf”; String txt=”/home/can/myWorkSpace/PDFConverterProject/outputs/bb.txt”; StringBuffer text=new StringBuffer() ; String resultText=””; PdfReader reader; try { reader = new PdfReader(pdf); PdfReaderContentParser parser = new PdfReaderContentParser(reader); PrintWriter out = new PrintWriter(new FileOutputStream(txt)); TextExtractionStrategy strategy; for (int i = 1; i “+resultText); StringTokenizer stringTokenizer=new StringTokenizer(resultText, “\n”); PrintWriter lineWriter = new PrintWriter(new […]

IText阅读PDF格式如pdftotext -layout?

我正在寻找最简单的方法来实现一个类似于输出的安静的java解决方案 pdftotext -layout FILE 在Linux机器上。 (当然它也应该便宜) 我刚刚尝试了一些IText,PDFBox和PDFTextStream的代码片段。 到目前为止,最准确的解决方案是PDFTextStream,它使用VisualOutputTarget来获得我文件的绝佳表示。 所以我的列布局被认可是正确的,我可以使用它。 但IText也应该有解决方案,或者? 我发现的每个简单片段都会产生简单有序的字符串,这些字符串很混乱(混乱行/列/行)。 是否有任何解决方案可能更容易,可能不涉及自己的战略? 或者是否有可以使用的开源策略? //我按照mkl的说明编写了自己的策略对象,如下所示: package com.test.pdfextractiontest.itext; import … public class MyLocationTextExtractionStrategy implements TextExtractionStrategy { /** set to true for debugging */ static boolean DUMP_STATE = false; /** a summary of all found text */ private final List locationalResult = new ArrayList(); public MyLocationTextExtractionStrategy() { } […]