使用PDFBox从特定页面读取文本
我知道如何使用PDFTextStripper.getText(PDDocument)
使用PDFBox读取整个pdf文件的文本。
我还有一个关于如何使用PDDocumentCatalog.getAllPages().get(i)
对象引用的示例PDDocumentCatalog.getAllPages().get(i)
。
如何使用PDFBox获取一个页面的文本,因为我在PDPage
类PDPage
不到任何此类方法?
您可以在PDFTextStripper
上设置参数以读取特定页面:
PDDocument doc; // document int i; // page no. PDFTextStripper reader = new PDFTextStripper(); reader.setStartPage(i); reader.setEndPage(i); String pageText = reader.getText(doc);
据我所知, PDPage
更多地用于表示屏幕上的页面,而不是提取文本。 因此,我不建议使用它来提取文本。