使用jsoup进行奇怪的编码行为

我用jsoup从不同页面的html源代码中提取一些信息。其中大多数是UTF-8编码的。其中一个是用ISO-8859-1编码的，这导致了一个奇怪的错误（在我的选择中）。

包含错误的页面是： http ： //www.gudi.ch/armbanduhr-metall-wasserdicht-1280×960-megapixels-p-560.html

我用以下代码读取了所需的String：

Document doc = Jsoup.connect("http://www.gudi.ch/armbanduhr-metall-wasserdicht-1280x960-megapixels-p-560.html").userAgent("Mozilla").get(); String title = doc.getElementsByClass("products_name").first().text();

问题是字符串“HD Armbanduhr aus Metall 4GB Wasserdicht 1280X960 – 5百万像素”中的连字符。像öäü这样的正常变音符号被正确读取。只有这个单一字符，没有输出为“＆＃45;” 出现问题。

我试图用out.outputSettings（）。charset（“ISO-8859-1”）覆盖（正确设置）页面编码，但这也没有帮助。

接下来，我尝试使用Charset类更改字符串的编码，并手动更改为utf8和iso-8859-1。也没有运气。

在使用jsoup解析html文档之后，有人提示我可以尝试获取正确的字符吗？

谢谢

这是网站本身的错误。这实际上是三个错误：

在HTTP Content-Type响应头中没有任何字符集的情况下提供页面。 HTML元标记中有ISO-8859-1 ，但是当通过HTTP提供页面时，这会被忽略！平均webbrowser将尝试智能检测或使用平台默认编码对网页进行编码，即Windows机器上的CP1252。
标签假装内容是ISO-8859-1编码的，但实际字符– （ U + 2013 EN DASH ）根本不包含在该字符集中。但它被CP1252字符集覆盖为0x0096 。
根据网页源代码，产品名称使用文字字符–而不是HTML实体– 如在同一网页上的其他地方发现的那样。

Jsoup可以透明地修复许多开发不当的网页，但是这个网页真的超越了Jsoup。您需要手动读取它，然后将其作为CP1252提供给Jsoup。

 String url = "http://www.gudi.ch/armbanduhr-metall-wasserdicht-1280x960-megapixels-p-560.html"; InputStream input = new URL(url).openStream(); Document doc = Jsoup.parse(input, "CP1252", url); String title = doc.select(".products_name").first().text(); // ...

使用jsoup进行奇怪的编码行为

减少applet加载时间

将PDF文件转换为单个HTML文件

Jsoup从表中获取表中的数据

如何在表中将URL显示为可点击的URL并允许它们在默认浏览器中打开？

在HTML（Java）中查找值的快速方法

如何使用Spring Security自定义登录页面？

如何使用java servlet从mysql数据库中检索图像并在HTML img标签中显示？

使用Java生成程序化HTMLDocument

如何使用selenium的html单元驱动程序为java读取带有无限滚动条的页面？

如何使用Jsoup替换每个标记中的“text”