Tag: pdf

如何查找所有基于图像的PDF?

我的系统中有很多PDF文档,有时我注意到文档是基于图像的,没有编辑function。 在这种情况下,我在Foxit PhantomPDF中进行OCR以便更好地搜索,您可以在多个文件中进行OCR。 我想找到我的所有基于图像的PDF文档。 我不明白PDF阅读器如何识别文档的OCR不是文本的。 必须有一些这些读者可以访问的字段。 这也可以在终端访问。 这个答案提供了如何在线程中执行此操作的开放式建议。 检查PDF文件是否为扫描文件 : 您最好的选择可能是检查它是否有文本,还可以查看它是否包含大页面图像或覆盖页面的大量平铺图像。 如果您还检查元数据,则应涵盖大多数选项。 我想更好地理解你如何有效地做到这一点,因为如果存在一些元数据,那么它将很容易。 但是,我还没有找到这样的元素。 我认为最可能的方法是查看页面是否包含具有搜索OCR的页面化图像,因为它已经有效并且已经在一些PDF阅读器中使用。 但是,我不知道该怎么做。 边缘检测和休变换的答案 在Hugh变换中,在参数空间的超平方中有特定选择的参数。 它的复杂性$ O(A ^ {m-2})$其中m是你看到的参数数量超过那些参数的问题很难。 A是图像空间的大小。 福昕阅读器在其实现中使用最可能的3个参数。 边缘易于检测,可以确保效率,必须在Hugh变换之前完成。 简单地忽略了损坏的页面。 其他两个参数仍然未知,但我认为它们必须是节点和一些交叉点。 如何计算这些交叉点是未知的? 确切问题的表述是未知的。 测试Deajan的答案 该命令适用于Debian 8.5,但我无法在Ubuntu 16.04中最初使用它 masi@masi:~$ find ./ -name “*.pdf” -print0 | xargs -0 -I {} bash -c ‘export file=”{}”; if [ $(pdffonts “$file” 2> /dev/null | […]

PDFBox – 查找页面尺寸

如何使用PDFBox找到(以mm为单位)pdf页面的宽度和高度? 目前,我正在使用这个: System.out.println(page.getMediaBox().getHeight()); System.out.println(page.getMediaBox().getWidth()); 但结果是(不是mm): 842.0 595.22

在java中将docx转换为pdf

我试图将包含表格和图像的docx文件转换为pdf格式文件。 我一直在寻找,但没有得到适当的解决方案,要求提供正确和正确的解决方案: 在这里我尝试过: import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import org.apache.poi.xwpf.converter.pdf.PdfConverter; import org.apache.poi.xwpf.converter.pdf.PdfOptions; import org.apache.poi.xwpf.usermodel.XWPFDocument; public class TestCon { public static void main(String[] args) { TestCon cwoWord = new TestCon(); System.out.println(“Start”); cwoWord.ConvertToPDF(“D:\\Test.docx”, “D:\\Test1.pdf”); } public void ConvertToPDF(String docPath, String pdfPath) { try { InputStream doc = new […]

是否可以使用HttpClient下载PDF等文件?

我在这里找到了一些关于如何下载文件的例子,但其中大多数似乎都在使用HttpURLConnection。 是否可以使用HttpClient下载文件?

设置流回浏览器的Pdf的文件名

我有一个Java webapp创建一个pdf并将其流回浏览器。 byte[] pdf = report.exportPdfToArray(user); response.setContentType(“application/pdf”); response.setHeader(“content-disposition”, “inline; filename=\”My.pdf\””); outStream = response.getOutputStream(); outStream.write(pdf); outStream.flush(); outStream.close(); 报告被执行并被发送回浏览器,但即使我设置了content-disposition ,我也无法控制文件的名称。 我正在使用Jboss 4.2.1。 你知道我错过了什么吗? 编辑 :当内容处置是内联时,有没有办法设置文件名?

excel(.xlsx)使用开放式办公室转换为pdf(.pdf)时缺少工作表和页面大小问题

我使用JodConverter和Open-Office创建了一个应用程序,用于将excel( .xlsx )转换为PDF ,该应用程序运行正常,但我遇到了两个问题 输出PDF的页面是A4大小的forms,因为某些工作表内容已被切掉。 因为我希望excel的每个工作表都像在一个页面中一样完整。 缺少工作表,如果我的excel有8个工作表,我在PDF输出中只得到两个或三个 即使我们试图直接从开放办公室转换为pdf ,它也会给出上述类似的问题 Excel文件 – ss1.xlsx 输出PDF – work.pdf 任何人都可以告诉我一些解决方案 我的代码如下所示 public class MyConverter { public static void main(String[] args) throws ConnectException { File inputFile = new File(“C:/Users/Work/Desktop/ss1.xlsx”); File outputFile = new File(“C:/Users/Work/Desktop/work.pdf”); // connect to an OpenOffice.org instance running on port 8100 OpenOfficeConnection connection = new SocketOpenOfficeConnection(8100); connection.connect(); […]

如何使用iText对pdf进行数字签名?

如何使用iText签署pdf? 我正在浏览这个LINK但却不了解my_private_key.pfx。 我真的需要数字签名证书吗? 请澄清我。 提前致谢。

使用PDFbox确定文档中单词的坐标

我正在使用PDFbox提取PDF文档中单词/字符串的坐标,并且到目前为止已成功确定单个字符的位置。 这是迄今为止的代码,来自PDFbox doc: package printtextlocations; import java.io.*; import org.apache.pdfbox.exceptions.InvalidPasswordException; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.PDPage; import org.apache.pdfbox.pdmodel.common.PDStream; import org.apache.pdfbox.util.PDFTextStripper; import org.apache.pdfbox.util.TextPosition; import java.io.IOException; import java.util.List; public class PrintTextLocations extends PDFTextStripper { public PrintTextLocations() throws IOException { super.setSortByPosition(true); } public static void main(String[] args) throws Exception { PDDocument document = null; try { File input = new File(“C:\\path\\to\\PDF.pdf”); […]

在iText中访问OpenType字形变体

在iText中使用OpenType字体构建PDF文档时,我想从字体中访问字形变体 – 特别是表格形状。 由于OpenType字形变体没有Unicode索引,我不知道如何指定我想使用一组特定的变体(表格图)或通过其字形ID调用特定的字形。 只查找相关的iText类名称(如果存在)。

我希望java代码在浏览器上查看pdf文件而不下载它们

我正在搜索java代码,无需下载即可在浏览器上查看pdf文件。 文件将通过数据库插入。欢迎帮助。