Tag: 提取

从包含标签的Java String中提取url

我想提取下面的字符串 : http://www.01net.com/images/article/mea/150.100.790233.jpg 此字符串是以下Java字符串中第一个元素标记的url: A en croire CNet US, le gouvernement américain aurait cherché à obtenir les master keys de plusieurs acteurs du Web pour pouvoir déchiffrer les communications de leurs utilisateurs, protégées par le protocole SSL.

我应该如何在java中提取压缩文件夹?

我使用以下代码在Java中提取zip文件。 import java.io.*; import java.util.zip.*; class testZipFiles { public static void main(String[] args) { try { String filename = “C:\\zip\\includes.zip”; testZipFiles list = new testZipFiles( ); list.getZipFiles(filename); } catch (Exception e) { e.printStackTrace(); } } public void getZipFiles(String filename) { try { String destinationname = “c:\\zip\\”; byte[] buf = new byte[1024]; ZipInputStream zipinputstream = null; […]

Eclipse可以自动生成第三方库类的接口吗?

我正在Apache commons网络库中使用Apache的FTPClient类。 遗憾的是,它没有为大多数function实现接口,这使得使用它的测试类变得棘手。 所以,我想我会创建自己的类,它包装了这个并实现了一个接口。 无论如何那是背景。 我的问题是,在Eclipse中是否可以生成一个接口(类似于Refactor-> Extract Interface),但是对于坐在jar文件中的第三方代码? 为了澄清,我不是在寻找FTPClient来实现新的接口,而是创建一个模仿与FTPClient相同的公共API的接口。 然后我可以创建自己的类来实现这个接口并封装FTPClient。

在Java中从HTML中提取微数据

我真的需要帮助来提取HTML5中嵌入的Mircodata。 我的目的是从网页获取结构化数据,就像谷歌的这个工具: http : //www.google.com/webmasters/tools/richsnippets 。 我搜索了很多,但没有可能的解决方案。 目前,我使用any23库但我找不到任何文档,只有javadocs没有为我提供足够的信息。 我使用any23的微数据提取器,但卡在第三个参数:“org.w3c.dom.Document in”。 我无法将HTML内容解析为w3cDom。 我使用了JTidy以及JSoup,但是这些库中的DOM对象没有使用Extractor构造函数修复。 另外,我也怀疑Microdata Extractor的第二个参数。 我希望任何人都可以帮助我处理任何23或建议另一个库可以解决这个提取问题。 编辑 :我通过使用与any23命令行工具相同的方式自己找到了解决方案。 这是代码片段: HTTPDocumentSource doc = new HTTPDocumentSource(DefaultHTTPClient.createInitializedHTTPClient(), value); InputStream documentInputInputStream = doc.openInputStream(); TagSoupParser tagSoupParser = new TagSoupParser(documentInputInputStream, doc.getDocumentURI()); Document document = tagSoupParser.getDOM(); ByteArrayOutputStream byteArrayOutput = new ByteArrayOutputStream(); MicrodataParser.getMicrodataAsJSON(tagSoupParser.getDOM(),new PrintStream(byteArrayOutput)); String result = byteArrayOutput.toString(“UTF-8”); 这些代码行只从HTML中提取微数据并以JSON格式编写。 我尝试使用MicrodataExtractor,它可以将输出格式更改为其他格式(Rdf,turtle,…),但输入文档似乎只接受XML格式。 当我输入HTML文档时,它会抛出“文档未启动”。 如果有人找到了使用MicrodataExtractor的方法,请在这里留下答案。 谢谢。

从String中提取哈希标记

我想在String的#字符后立即提取任何单词,并将它们存储在String[]数组中。 例如,如果这是我的String … “Array is the most #important thing in any programming #language” 然后我想将以下单词提取到String[]数组中…… “important” “language” 有人可以提供实现这一目标的建议。

如何仅提取JDK安装程序的内容

我刚刚下载了Java SDK / JDK版本5和6,我只需要安装包中包含的开发工具(和一些库),我不需要执行安装,这就是为什么我只想找一个zip最初的包(对于Windows只有一个exe安装文件),我只需要提取安装包的内容,我想这可以从命令行完成,但到目前为止我还没有找到如何做到这一点(我已经考虑过WinRar和7-Zip,但我真的想在不使用这些工具的情况下找到它的方法) 你以前做过这个怎么样?

如何从java中的字符串中仅提取数字?

据说我有一个字符串包含: hello 14:12 。 现在我想只提取数字并在两个变量中有两个单独的值,如下所示:first_num值应该是int,即first_num = 14,第二个变量应该存储冒号(:)后的数字,即second_num = 12。

Java:Apache POI:我可以从MS Word(.doc)文件中获取干净的文本吗?

当我使用Apache POI时,我(以编程方式)从MS Word文件获取的字符串与我使用MS Word打开文件时可以看到的文本不同。 使用以下代码时: File someFile = new File(“some\\path\\MSWFile.doc”); InputStream inputStrm = new FileInputStream(someFile); HWPFDocument wordDoc = new HWPFDocument(inputStrm); System.out.println(wordDoc.getText()); 输出是一行包含许多“无效”字符(是的,“盒子”),以及许多不需要的字符串,如“ FORMTEXT ”,“ HYPERLINK \l “_Toc##########” ”( ‘#’是数字数字),“ PAGEREF _Toc########## \h 4 ”等。 以下代码“修复”了单行问题,但维护了所有无效字符和不需要的文本: File someFile = new File(“some\\path\\MSWFile.doc”); InputStream inputStrm = new FileInputStream(someFile); WordExtractor wordExtractor = new WordExtractor(inputStrm); for(String paragraph:wordExtractor.getParagraphText()){ System.out.println(paragraph); } 我不知道我是否使用了错误的方法来提取文本,但这就是我在查看POI的快速指南时所提出的 […]

从WebPage程序获取所有图像| Java的

目前我需要一个给出URL的程序,返回网页上所有图像的列表。 即: logo.png gallery1.jpg test.gif 在我尝试编写代码之前是否有可用的开源软件? 语言应该是java。 谢谢Philip

如何从MP3获取音频数据?

我正在处理一个必须处理音频文件的应用程序。 当使用mp3文件时,我不知道如何处理数据(我感兴趣的数据是音频字节,代表我们听到的内容)。 如果我使用的是wav文件,我知道我有一个44字节的标题,然后是数据。 说到mp3,我读过它们是由帧组成的,每帧都包含一个标题和音频数据。 是否可以从mp3文件中获取所有音频数据? 我正在使用java(我添加了MP3SPI,Jlayer和Tritonus)并且我能够从文件中获取字节,但我不确定这些字节代表什么或如何处理。