Tag: extract

Java xPath – 从XML提取子文档

我有一个XML文档如下: … 我想从中提取DocumentBody元素的内容为String,原始XML文档: 使用xPath,它可以很简单: /DocumentWrapper/DocumentBody Unfrotunatelly,我的Java代码不想按我的意愿工作。 它返回空行而不是预期结果。 有没有机会这样做,或者我必须返回NodeList然后从中生成xml文档? 我的Java代码: XPathFactory xPathFactoryXPathFactory.newInstance(); XPath xPath xPathFactory.newXPath(); XPathExpression xPath.compile(xPathQuery); String result = expression.evaluate(xmlDocument);

使用java在pdf内部展平矢量图形并提取

我试图获取嵌入在PDF文件中的图像的大小(宽度和深度)。 PDF中的图像都是高分辨率矢量图像。 我尝试使用PDFBox。 PDFBox库完美地提取图像以用于普通图形。 但是,当它获得矢量图像时,它会将不同的图层提取为不同的图像。 我也读过有关iText的内容。 但是iText可以将整个页面转换为光栅化图像。 然而,我的PDF页面实际上包含多个图像,我需要以不同的方式提取/获取所有这些图像的大小。 我在这里附加我的PDFBox图像提取代码。 请让我知道,如何将一个矢量图像作为一个图像而不是图层。 我的代码如下: package com.abp.pdf.util; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import java.util.Iterator; import java.util.List; import java.util.Map; import javax.imageio.ImageIO; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.PDPage; import org.apache.pdfbox.pdmodel.PDResources; import org.apache.pdfbox.pdmodel.encryption.AccessPermission; import org.apache.pdfbox.pdmodel.encryption.StandardDecryptionMaterial; import org.apache.pdfbox.pdmodel.graphics.xobject.PDXObject; import org.apache.pdfbox.pdmodel.graphics.xobject.PDXObjectForm; import org.apache.pdfbox.pdmodel.graphics.xobject.PDXObjectImage; public class ExtractImages { private int imageCounter = 1; private ExtractImages() { […]

用于从输入文本中提取关键字的Java库

我正在寻找一个Java库来从一个文本块中提取关键字。 该过程应如下: 停止单词清理 – >词干 – >根据英语语言学统计信息搜索关键词 – 意味着如果一个单词在文本中出现的次数多于在英语中出现的概率而不是关键词候选词。 是否有执行此任务的库?

如何从video中获取帧样本(jpeg)(mov)

我想从带有java的video文件(mov)中获取帧样本(jpeg)。 是否有捷径可寻。 当我在谷歌中搜索时,我发现只能从多个jpgs制作mov。 我不知道也许我找不到合适的关键字。