检索包含嵌入对象的网页
我想要一个包含图像,flash动画和其他嵌入对象的网页。 实现这一目标的直接方法是什么?
用java编程语言编写Web爬虫。 http://java.sun.com/developer/technicalArticles/ThirdParty/WebCrawler/
使用开源HTML解析器,如HTMLCleaner – http://java-source.net/open-source/html-parsers/htmlcleaner或CyberNekoHtml – http://java-source.net/open-source/html-parsers/ nekohtml 。
一旦使用解析器创建网页DOM的表示,就可以通过对DOM执行查询并从HTML元素中提取相关的src属性来加载/下载DOM中存在的图像和其他嵌入对象。
尝试网络收获