Tag: jtidy

如何从java中的任何网页获取标题文本

我正在使用java从网页上获取标题文本。 我使用Tag名称从网页中获取图像,如下所示: int i=1; InputStream in=new URL(“www.yahoo.com”).openStream(); org.w3c.dom.Document doc= new Tidy().parseDOM(in, null); NodeList img=doc.getElementsByTagName(“img”); ArrayList list=new ArrayList(); list.add(img.item(i).getAttributes().getNamedItem(“src”).getNodeValue()); 它正在工作,但我想使用与上面相同的代码从网页(www.yahoo.com)获取标题标签。我已经提到了getElementsByTagName(“title”); 但它不起作用。 请帮助我,如何使用如上所述的jtidy解析器。

JTidy Node.findBody() – 如何使用?

我正在尝试用JTidy进行XHTML DOM解析,这似乎是违反直觉的任务。 特别是,有一种解析HTML的方法: Node Tidy.parse(Reader, Writer) 为了获得该节点的,我认为,我应该使用 Node Node.findBody(TagTable) 我应该在哪里获得该TagTable的实例? (构造函数受到保护,我还没有找到工厂来生产它。) 我使用JTidy 8.0-SNAPSHOT。

正确使用JTidy来净化HTML

我正在尝试使用JTidy(jtidy-r938.jar)来清理输入HTML字符串,但我似乎无法正确获取默认设置。 通常,诸如“hello world”之类的字符串在整理后最终成为“helloworld”。 我想展示我在这里做的事情,任何指针都会非常感激: 假设rawHtml是包含输入(真实世界)HTML的String。 这就是我正在做的事情: Tidy tidy = new Tidy(); tidy.setPrintBodyOnly(true); ByteArrayOutputStream baos = new ByteArrayOutputStream(); PrintStream ps = new PrintStream(baos); tidy.parse(new StringReader(rawHtml), ps); return baos.toString(“UTF8”); 首先,上述代码看起来有什么根本错误吗? 我似乎得到了奇怪的结果。 例如,请考虑以下输入: ???private String parseDescription 输出是:     privateString parseDescription 所以, “public String parseDescription”变为“publicString parseDescription” 提前致谢!