Tag: 提取

从包含标签的Java String中提取url: 我想提取下面的字符串： http://www.01net.com/images/article/mea/150.100.790233.jpg 此字符串是以下Java字符串中第一个元素标记的url： A en croire CNet US, le gouvernement américain aurait cherché à obtenir les master keys de plusieurs acteurs du Web pour pouvoir déchiffrer les communications de leurs utilisateurs, protégées par le protocole SSL.

我应该如何在java中提取压缩文件夹？: 我使用以下代码在Java中提取zip文件。 import java.io.*; import java.util.zip.*; class testZipFiles { public static void main(String[] args) { try { String filename = “C:\\zip\\includes.zip”; testZipFiles list = new testZipFiles( ); list.getZipFiles(filename); } catch (Exception e) { e.printStackTrace(); } } public void getZipFiles(String filename) { try { String destinationname = “c:\\zip\\”; byte[] buf = new byte[1024]; ZipInputStream zipinputstream = null; […]

Eclipse可以自动生成第三方库类的接口吗？: 我正在Apache commons网络库中使用Apache的FTPClient类。遗憾的是，它没有为大多数function实现接口，这使得使用它的测试类变得棘手。所以，我想我会创建自己的类，它包装了这个并实现了一个接口。无论如何那是背景。我的问题是，在Eclipse中是否可以生成一个接口（类似于Refactor-> Extract Interface），但是对于坐在jar文件中的第三方代码？为了澄清，我不是在寻找FTPClient来实现新的接口，而是创建一个模仿与FTPClient相同的公共API的接口。然后我可以创建自己的类来实现这个接口并封装FTPClient。

在Java中从HTML中提取微数据: 我真的需要帮助来提取HTML5中嵌入的Mircodata。我的目的是从网页获取结构化数据，就像谷歌的这个工具： http ： //www.google.com/webmasters/tools/richsnippets 。我搜索了很多，但没有可能的解决方案。目前，我使用any23库但我找不到任何文档，只有javadocs没有为我提供足够的信息。我使用any23的微数据提取器，但卡在第三个参数：“org.w3c.dom.Document in”。我无法将HTML内容解析为w3cDom。我使用了JTidy以及JSoup，但是这些库中的DOM对象没有使用Extractor构造函数修复。另外，我也怀疑Microdata Extractor的第二个参数。我希望任何人都可以帮助我处理任何23或建议另一个库可以解决这个提取问题。编辑：我通过使用与any23命令行工具相同的方式自己找到了解决方案。这是代码片段： HTTPDocumentSource doc = new HTTPDocumentSource(DefaultHTTPClient.createInitializedHTTPClient(), value); InputStream documentInputInputStream = doc.openInputStream(); TagSoupParser tagSoupParser = new TagSoupParser(documentInputInputStream, doc.getDocumentURI()); Document document = tagSoupParser.getDOM(); ByteArrayOutputStream byteArrayOutput = new ByteArrayOutputStream(); MicrodataParser.getMicrodataAsJSON(tagSoupParser.getDOM(),new PrintStream(byteArrayOutput)); String result = byteArrayOutput.toString(“UTF-8”); 这些代码行只从HTML中提取微数据并以JSON格式编写。我尝试使用MicrodataExtractor，它可以将输出格式更改为其他格式（Rdf，turtle，…），但输入文档似乎只接受XML格式。当我输入HTML文档时，它会抛出“文档未启动”。如果有人找到了使用MicrodataExtractor的方法，请在这里留下答案。谢谢。

从String中提取哈希标记: 我想在String的#字符后立即提取任何单词，并将它们存储在String[]数组中。例如，如果这是我的String … “Array is the most #important thing in any programming #language” 然后我想将以下单词提取到String[]数组中…… “important” “language” 有人可以提供实现这一目标的建议。

如何仅提取JDK安装程序的内容: 我刚刚下载了Java SDK / JDK版本5和6，我只需要安装包中包含的开发工具（和一些库），我不需要执行安装，这就是为什么我只想找一个zip最初的包（对于Windows只有一个exe安装文件），我只需要提取安装包的内容，我想这可以从命令行完成，但到目前为止我还没有找到如何做到这一点（我已经考虑过WinRar和7-Zip，但我真的想在不使用这些工具的情况下找到它的方法）你以前做过这个怎么样？

如何从java中的字符串中仅提取数字？: 据说我有一个字符串包含： hello 14:12 。现在我想只提取数字并在两个变量中有两个单独的值，如下所示：first_num值应该是int，即first_num = 14，第二个变量应该存储冒号（:)后的数字，即second_num = 12。

Java：Apache POI：我可以从MS Word（.doc）文件中获取干净的文本吗？: 当我使用Apache POI时，我（以编程方式）从MS Word文件获取的字符串与我使用MS Word打开文件时可以看到的文本不同。使用以下代码时： File someFile = new File(“some\\path\\MSWFile.doc”); InputStream inputStrm = new FileInputStream(someFile); HWPFDocument wordDoc = new HWPFDocument(inputStrm); System.out.println(wordDoc.getText()); 输出是一行包含许多“无效”字符（是的，“盒子”），以及许多不需要的字符串，如“ FORMTEXT ”，“ HYPERLINK \l “_Toc##########” ”（ ‘＃’是数字数字），“ PAGEREF _Toc########## \h 4 ”等。以下代码“修复”了单行问题，但维护了所有无效字符和不需要的文本： File someFile = new File(“some\\path\\MSWFile.doc”); InputStream inputStrm = new FileInputStream(someFile); WordExtractor wordExtractor = new WordExtractor(inputStrm); for(String paragraph:wordExtractor.getParagraphText()){ System.out.println(paragraph); } 我不知道我是否使用了错误的方法来提取文本，但这就是我在查看POI的快速指南时所提出的 […]

从WebPage程序获取所有图像| Java的: 目前我需要一个给出URL的程序，返回网页上所有图像的列表。即： logo.png gallery1.jpg test.gif 在我尝试编写代码之前是否有可用的开源软件？语言应该是java。谢谢Philip

如何从MP3获取音频数据？: 我正在处理一个必须处理音频文件的应用程序。当使用mp3文件时，我不知道如何处理数据（我感兴趣的数据是音频字节，代表我们听到的内容）。如果我使用的是wav文件，我知道我有一个44字节的标题，然后是数据。说到mp3，我读过它们是由帧组成的，每帧都包含一个标题和音频数据。是否可以从mp3文件中获取所有音频数据？我正在使用java（我添加了MP3SPI，Jlayer和Tritonus）并且我能够从文件中获取字节，但我不确定这些字节代表什么或如何处理。