Tag: pdftotext

itext java pdf to text creation: 我使用一个itext将pdf转换为文本文件，它实际上很好用但是对于某些单词它做了以下事情：例如在pdf中有一个短语，如“呈现主要想法”但是itext创建一个输出，如“presentthemainideas”。反正有没有纠正这种行为？ String pdf=”/home/can/Downloads/NLP/textSummarization/A New Approach for Multi-Document Update Summarization.pdf”; String txt=”/home/can/myWorkSpace/PDFConverterProject/outputs/bb.txt”; StringBuffer text=new StringBuffer() ; String resultText=””; PdfReader reader; try { reader = new PdfReader(pdf); PdfReaderContentParser parser = new PdfReaderContentParser(reader); PrintWriter out = new PrintWriter(new FileOutputStream(txt)); TextExtractionStrategy strategy; for (int i = 1; i “+resultText); StringTokenizer stringTokenizer=new StringTokenizer(resultText, “\n”); PrintWriter lineWriter = new PrintWriter(new […]

IText阅读PDF格式如pdftotext -layout？: 我正在寻找最简单的方法来实现一个类似于输出的安静的java解决方案 pdftotext -layout FILE 在Linux机器上。（当然它也应该便宜）我刚刚尝试了一些IText，PDFBox和PDFTextStream的代码片段。到目前为止，最准确的解决方案是PDFTextStream，它使用VisualOutputTarget来获得我文件的绝佳表示。所以我的列布局被认可是正确的，我可以使用它。但IText也应该有解决方案，或者？我发现的每个简单片段都会产生简单有序的字符串，这些字符串很混乱（混乱行/列/行）。是否有任何解决方案可能更容易，可能不涉及自己的战略？或者是否有可以使用的开源策略？ //我按照mkl的说明编写了自己的策略对象，如下所示： package com.test.pdfextractiontest.itext; import … public class MyLocationTextExtractionStrategy implements TextExtractionStrategy { /** set to true for debugging */ static boolean DUMP_STATE = false; /** a summary of all found text */ private final List locationalResult = new ArrayList(); public MyLocationTextExtractionStrategy() { } […]