Tag: jsoup

jsoup只剥离html标签而不是新行字符？: 我在Java中有以下内容，我只想删除html标签而不是新行字符 test1 test2 test 3 //line 1 test4 //line 2 如果我在文本丰富的编辑器中打开上面的内容，第1行和第2行将显示在不同的行中（不显示标记）。但是在记事本内容中会显示标记。删除我使用的所有html标签 Jsoup.parse(aboveContent).text() 它删除所有html字符。但它在记事本中显示了同一行中的所有第1行和第2行。不知何故，Jsoup还删除了换行符。我尝试了什么： – 我也尝试用\r\n替换，然后删除html标签 Jsoup.parse(contentWith\r\n-Insteadof-Tag ).text() 但仍然Jsoup删除行尾字符（如在调试器中我可以看到line1和line2）在同一行。我如何让Jsoup只删除html字符而不是新行字符？

Jsoup div 语法有效，而div.class语法没有 – 为什么？: 对于以下HTML代码段： some inner content 以下Jsoup选择器工作： div[class=class_one class_two class_three classfour classfive classsix] 但是等效的div.class语法不起作用： div.class_one.class_two.class_three.classfour.classfive.classsix 为什么？我错过了什么？编辑：根据我在下面收到的反馈，我意识到我没有解释什么“不起作用”的意思。这是因为我对多类选择语法的工作原理感到困惑。通过“不工作”我的意思是上面的.classname语法选择了比class=classname语法太多的div（具有相同的类名和相同的顺序！），因为有问题的HTML包含额外的div一个7级的名字……事实certificate这是设计的。这就是我所缺少的，感谢@Hovercraft Full Of Eels和@BalusC帮助我发现这一点。

使用jsoup将HTML解析为格式化明文: 我正在开发一个maven项目，允许我解析网站上的html数据。我能够使用以下代码解析它： public void parseData(){ String url = “http://stackoverflow.com/help/on-topic”; try { Document doc = Jsoup.connect(url).get(); Element essay = doc.select(“div.col-section”).first(); String essayText = essay.text(); jTextAreaAdem.setText(essayText); } catch (IOException ex) { Logger.getLogger(formAdem.class.getName()).log(Level.SEVERE, null, ex); } } 到目前为止我没有问题。我可以解析html数据。我正在使用jsoup中的select方法并使用“div.col-section”检索数据，这意味着我正在寻找具有类col-section的div元素。我想在textarea中打印数据。我的结果是一个巨大的段落，即使网站上的真实数据不止一段。那么如何解析数据就像网站上的数据一样？

如何在jsoup中获取元素的第一级子元素: 在jsoup中， Element.children()返回Element的所有子项（后代）。但是，我想要Element的一级孩子（直接孩子）。我可以使用哪种方法？

JSOUP中的UserAgent？: 我总是在JSOUP代码中随处可见。 Useragent设置为Mozilla。如果我想将其设置为谷歌浏览器或歌剧，该怎么办？ Jsoup.connect(url) .userAgent(“Mozilla”); 我怎么能做到这一点？提前致谢。

如何修复HTTP错误提取URL。在抓取时java中的状态= 500？: 我试图从评论页面抓取用户对imdb影院电影的评级:(我数据库中的电影数量约为600,000）。我使用jsoup解析页面如下:(对不起，我没有在这里写完整个代码，因为它太长了） try { //connecting to mysql db ResultSet res = st .executeQuery(“SELECT id, title, production_year ” + “FROM title ” + “WHERE kind_id =1 ” + “LIMIT 0 , 100000”); while (res.next()){ ……. ……. String baseUrl = “http://www.imdb.com/search/title?release_date=” + “”+year+”,”+year+”&title=”+movieName+”” + “&title_type=feature,short,documentary,unknown”; Document doc = Jsoup.connect(baseUrl) .userAgent(“Mozilla”) .timeout(0).get(); ….. ….. //insert ratings into database […]

如何正确编码此URL: 我试图使用JSoup获取此URL http://betatruebaonline.com/img/parte/330/CIGUEÑAL.JPG 即使使用编码，我也有例外。我不明白为什么编码是错误的。它回来了 http://betatruebaonline.com/img/parte/330/CIGUEN%C3%91AL.JPG 而是正确的 http://sofzh.miximages.com/java/CIGUEÑAL.jpg 我怎么解决这个问题？谢谢。 private static void GetUrl() { try { String url = “http://betatruebaonline.com/img/parte/330/”; String encoded = URLEncoder.encode(“CIGUEÑAL.JPG”,”UTF-8″); Response img = Jsoup .connect(url + encoded) .ignoreContentType(true) .execute(); System.out.println(url); System.out.println(“PASSED”); } catch(Exception e) { System.out.println(“Error getting url”); System.out.println(e.getMessage()); } }

如何删除＆nbsp; 和Jsoup？: 我不能用.trim()或.replace(” “, “”)等删除它！我不明白。我甚至在Stackoverflow上发现尝试使用\\u00a0但两者都没有用。我试过这个： System.out.println( “‘”+fields.get(6).text().replace(“\\u00a0”, “”)+”‘” ); //’94,00 ‘ System.out.println( “‘”+fields.get(6).text().replace(” “, “”)+”‘” ); //’94,00 ‘ System.out.println( “‘”+fields.get(6).text().trim()+”‘”); //’94,00 ‘ System.out.println( “‘”+fields.get(6).html().replace(” “, “”)+”‘”); //’94,00’ works 但我无法弄清楚为什么我不能用.text()删除空格。

当apache.httpclient能够获取内容时，JSoup.connect会抛出403错误: 我试图解析任何给定页面的HTML转储。我使用HTML Parser并尝试使用JSoup进行解析。我在Jsoup中找到了有用的函数，但在调用Document doc = Jsoup.connect(url).get();时遇到403错误Document doc = Jsoup.connect(url).get(); 我尝试了HTTPClient，以获取html转储，并且它在同一个url上成功。为什么JSoup为同一个URL提供403，它提供来自公共http客户端的内容？难道我做错了什么？有什么想法吗？

jsoup – 从维基百科文章中提取文本: 我正在编写一些Java代码，以便使用Wikipedia在文本上实现NLP任务。如何使用JSoup提取维基百科文章的所有文本（例如http://en.wikipedia.org/wiki/Boston中的所有文本）？

Tag: jsoup

jsoup只剥离html标签而不是新行字符？

Jsoup div 语法有效，而div.class语法没有 – 为什么？

使用jsoup将HTML解析为格式化明文

如何在jsoup中获取元素的第一级子元素

JSOUP中的UserAgent？

如何修复HTTP错误提取URL。在抓取时java中的状态= 500？

如何正确编码此URL

如何删除＆nbsp; 和Jsoup？

当apache.httpclient能够获取内容时，JSoup.connect会抛出403错误

jsoup – 从维基百科文章中提取文本

jackson反序列化error handling

用Java测试加密和解密的单元

如何使用Eclipse Helios调试GlassFish 3？

尝试运行HelloWorld REST服务时获取404

从数组中获取大小为n的所有组合的算法（Java）？

如何在Eclipse中将Java Properties文件添加到我的Java项目中

浮点数不是减法后的预期数

在Java中，BlockingQueue是否完全是线程安全的

Play Framework – 如何从超类inheritance？

尝试访问我的Alfresco存储库时出现CmisObjectNotFoundException

如何在Java中将电话号码格式化为字符串？

哪些Java库执行HTTP Accept Header Parsing？

Selenium WebDriver – getCssValue（）方法

为什么我的HashMap允许重复键？

如何检测客户端机器是否已经安装了JRE版本？

Tag: jsoup

jsoup只剥离html标签而不是新行字符？

Jsoup div 语法有效，而div.class语法没有 – 为什么？

使用jsoup将HTML解析为格式化明文

如何在jsoup中获取元素的第一级子元素

JSOUP中的UserAgent？

如何修复HTTP错误提取URL。 在抓取时java中的状态= 500？

如何正确编码此URL

如何删除＆nbsp; 和Jsoup？

当apache.httpclient能够获取内容时，JSoup.connect会抛出403错误

jsoup – 从维基百科文章中提取文本

jackson反序列化error handling

用Java测试加密和解密的单元

如何使用Eclipse Helios调试GlassFish 3？

尝试运行HelloWorld REST服务时获取404

从数组中获取大小为n的所有组合的算法（Java）？

如何在Eclipse中将Java Properties文件添加到我的Java项目中

浮点数不是减法后的预期数

在Java中，BlockingQueue是否完全是线程安全的

Play Framework – 如何从超类inheritance？

尝试访问我的Alfresco存储库时出现CmisObjectNotFoundException

如何在Java中将电话号码格式化为字符串？

哪些Java库执行HTTP Accept Header Parsing？

Selenium WebDriver – getCssValue（）方法

为什么我的HashMap允许重复键？

如何检测客户端机器是否已经安装了JRE版本？

如何修复HTTP错误提取URL。在抓取时java中的状态= 500？