Tag: jsoup

jsoup只剥离html标签而不是新行字符?

我在Java中有以下内容,我只想删除html标签而不是新行字符 test1 test2 test 3 //line 1 test4 //line 2 如果我在文本丰富的编辑器中打开上面的内容,第1行和第2行将显示在不同的行中(不显示 标记)。但是在记事本内容中会显示 标记。 删除我使用的所有html标签 Jsoup.parse(aboveContent).text() 它删除所有html字符。 但它在记事本中显示了同一行中的所有第1行和第2行。 不知何故,Jsoup还删除了换行符。 我尝试了什么: – 我也尝试用\r\n替换 ,然后删除html标签 Jsoup.parse(contentWith\r\n-Insteadof-Tag ).text() 但仍然Jsoup删除行尾字符(如在调试器中我可以看到line1和line2)在同一行。 我如何让Jsoup只删除html字符而不是新行字符?

Jsoup div 语法有效,而div.class语法没有 – 为什么?

对于以下HTML代码段: some inner content 以下Jsoup选择器工作 : div[class=class_one class_two class_three classfour classfive classsix] 但是等效的div.class语法不起作用 : div.class_one.class_two.class_three.classfour.classfive.classsix 为什么? 我错过了什么? 编辑 :根据我在下面收到的反馈,我意识到我没有解释什么“不起作用”的意思。 这是因为我对多类选择语法的工作原理感到困惑。 通过“不工作”我的意思是上面的.classname语法选择了比class=classname语法太多的div(具有相同的类名和相同的顺序!),因为有问题的HTML包含额外的div一个7级的名字……事实certificate这是设计的 。 这就是我所缺少的,感谢@Hovercraft Full Of Eels和@BalusC帮助我发现这一点。

使用jsoup将HTML解析为格式化明文

我正在开发一个maven项目,允许我解析网站上的html数据。 我能够使用以下代码解析它: public void parseData(){ String url = “http://stackoverflow.com/help/on-topic”; try { Document doc = Jsoup.connect(url).get(); Element essay = doc.select(“div.col-section”).first(); String essayText = essay.text(); jTextAreaAdem.setText(essayText); } catch (IOException ex) { Logger.getLogger(formAdem.class.getName()).log(Level.SEVERE, null, ex); } } 到目前为止我没有问题。 我可以解析html数据。 我正在使用jsoup中的select方法并使用“div.col-section”检索数据,这意味着我正在寻找具有类col-section的div元素。 我想在textarea中打印数据。 我的结果是一个巨大的段落,即使网站上的真实数据不止一段。 那么如何解析数据就像网站上的数据一样?

如何在jsoup中获取元素的第一级子元素

在jsoup中, Element.children()返回Element的所有子项(后代)。 但是,我想要Element的一级孩子(直接孩子)。 我可以使用哪种方法?

JSOUP中的UserAgent?

我总是在JSOUP代码中随处可见。 Useragent设置为Mozilla。 如果我想将其设置为谷歌浏览器或歌剧,该怎么办? Jsoup.connect(url) .userAgent(“Mozilla”); 我怎么能做到这一点? 提前致谢。

如何修复HTTP错误提取URL。 在抓取时java中的状态= 500?

我试图从评论页面抓取用户对imdb影院电影的评级:(我数据库中的电影数量约为600,000)。 我使用jsoup解析页面如下:(对不起,我没有在这里写完整个代码,因为它太长了) try { //connecting to mysql db ResultSet res = st .executeQuery(“SELECT id, title, production_year ” + “FROM title ” + “WHERE kind_id =1 ” + “LIMIT 0 , 100000”); while (res.next()){ ……. ……. String baseUrl = “http://www.imdb.com/search/title?release_date=” + “”+year+”,”+year+”&title=”+movieName+”” + “&title_type=feature,short,documentary,unknown”; Document doc = Jsoup.connect(baseUrl) .userAgent(“Mozilla”) .timeout(0).get(); ….. ….. //insert ratings into database […]

如何正确编码此URL

我试图使用JSoup获取此URL http://betatruebaonline.com/img/parte/330/CIGUEÑAL.JPG 即使使用编码,我也有例外。 我不明白为什么编码是错误的。 它回来了 http://betatruebaonline.com/img/parte/330/CIGUEN%C3%91AL.JPG 而是正确的 http://sofzh.miximages.com/java/CIGUEÑAL.jpg 我怎么解决这个问题? 谢谢。 private static void GetUrl() { try { String url = “http://betatruebaonline.com/img/parte/330/”; String encoded = URLEncoder.encode(“CIGUEÑAL.JPG”,”UTF-8″); Response img = Jsoup .connect(url + encoded) .ignoreContentType(true) .execute(); System.out.println(url); System.out.println(“PASSED”); } catch(Exception e) { System.out.println(“Error getting url”); System.out.println(e.getMessage()); } }

如何删除  和Jsoup?

我不能用.trim()或.replace(” “, “”)等删除它! 我不明白。 我甚至在Stackoverflow上发现尝试使用\\u00a0但两者都没有用。 我试过这个: System.out.println( “‘”+fields.get(6).text().replace(“\\u00a0”, “”)+”‘” ); //’94,00 ‘ System.out.println( “‘”+fields.get(6).text().replace(” “, “”)+”‘” ); //’94,00 ‘ System.out.println( “‘”+fields.get(6).text().trim()+”‘”); //’94,00 ‘ System.out.println( “‘”+fields.get(6).html().replace(” “, “”)+”‘”); //’94,00’ works 但我无法弄清楚为什么我不能用.text()删除空格。

当apache.httpclient能够获取内容时,JSoup.connect会抛出403错误

我试图解析任何给定页面的HTML转储。 我使用HTML Parser并尝试使用JSoup进行解析。 我在Jsoup中找到了有用的函数,但在调用Document doc = Jsoup.connect(url).get();时遇到403错误Document doc = Jsoup.connect(url).get(); 我尝试了HTTPClient,以获取html转储,并且它在同一个url上成功。 为什么JSoup为同一个URL提供403,它提供来自公共http客户端的内容? 难道我做错了什么? 有什么想法吗?

jsoup – 从维基百科文章中提取文本

我正在编写一些Java代码,以便使用Wikipedia在文本上实现NLP任务。 如何使用JSoup提取维基百科文章的所有文本(例如http://en.wikipedia.org/wiki/Boston中的所有文本)?