Tag: jtidy

如何从java中的任何网页获取标题文本: 我正在使用java从网页上获取标题文本。我使用Tag名称从网页中获取图像，如下所示： int i=1; InputStream in=new URL(“www.yahoo.com”).openStream(); org.w3c.dom.Document doc= new Tidy().parseDOM(in, null); NodeList img=doc.getElementsByTagName(“img”); ArrayList list=new ArrayList(); list.add(img.item(i).getAttributes().getNamedItem(“src”).getNodeValue()); 它正在工作，但我想使用与上面相同的代码从网页（www.yahoo.com）获取标题标签。我已经提到了getElementsByTagName（“title”）; 但它不起作用。请帮助我，如何使用如上所述的jtidy解析器。

JTidy Node.findBody（） – 如何使用？: 我正在尝试用JTidy进行XHTML DOM解析，这似乎是违反直觉的任务。特别是，有一种解析HTML的方法： Node Tidy.parse(Reader, Writer) 为了获得该节点的，我认为，我应该使用 Node Node.findBody(TagTable) 我应该在哪里获得该TagTable的实例？（构造函数受到保护，我还没有找到工厂来生产它。）我使用JTidy 8.0-SNAPSHOT。

正确使用JTidy来净化HTML: 我正在尝试使用JTidy（jtidy-r938.jar）来清理输入HTML字符串，但我似乎无法正确获取默认设置。通常，诸如“hello world”之类的字符串在整理后最终成为“helloworld”。我想展示我在这里做的事情，任何指针都会非常感激：假设rawHtml是包含输入（真实世界）HTML的String。这就是我正在做的事情： Tidy tidy = new Tidy(); tidy.setPrintBodyOnly(true); ByteArrayOutputStream baos = new ByteArrayOutputStream(); PrintStream ps = new PrintStream(baos); tidy.parse(new StringReader(rawHtml), ps); return baos.toString(“UTF8”); 首先，上述代码看起来有什么根本错误吗？我似乎得到了奇怪的结果。例如，请考虑以下输入： ???private String parseDescription 输出是： privateString parseDescription 所以， “public String parseDescription”变为“publicString parseDescription” 提前致谢！