Tag: extract

Java xPath – 从XML提取子文档: 我有一个XML文档如下： … 我想从中提取DocumentBody元素的内容为String，原始XML文档：使用xPath，它可以很简单： /DocumentWrapper/DocumentBody Unfrotunatelly，我的Java代码不想按我的意愿工作。它返回空行而不是预期结果。有没有机会这样做，或者我必须返回NodeList然后从中生成xml文档？我的Java代码： XPathFactory xPathFactoryXPathFactory.newInstance(); XPath xPath xPathFactory.newXPath(); XPathExpression xPath.compile(xPathQuery); String result = expression.evaluate(xmlDocument);

使用java在pdf内部展平矢量图形并提取: 我试图获取嵌入在PDF文件中的图像的大小（宽度和深度）。 PDF中的图像都是高分辨率矢量图像。我尝试使用PDFBox。 PDFBox库完美地提取图像以用于普通图形。但是，当它获得矢量图像时，它会将不同的图层提取为不同的图像。我也读过有关iText的内容。但是iText可以将整个页面转换为光栅化图像。然而，我的PDF页面实际上包含多个图像，我需要以不同的方式提取/获取所有这些图像的大小。我在这里附加我的PDFBox图像提取代码。请让我知道，如何将一个矢量图像作为一个图像而不是图层。我的代码如下： package com.abp.pdf.util; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import java.util.Iterator; import java.util.List; import java.util.Map; import javax.imageio.ImageIO; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.PDPage; import org.apache.pdfbox.pdmodel.PDResources; import org.apache.pdfbox.pdmodel.encryption.AccessPermission; import org.apache.pdfbox.pdmodel.encryption.StandardDecryptionMaterial; import org.apache.pdfbox.pdmodel.graphics.xobject.PDXObject; import org.apache.pdfbox.pdmodel.graphics.xobject.PDXObjectForm; import org.apache.pdfbox.pdmodel.graphics.xobject.PDXObjectImage; public class ExtractImages { private int imageCounter = 1; private ExtractImages() { […]