Tag: jsoup

用于在Java中查找DOM元素的绝对位置的代码

我正在开发一个Java项目。 在这个项目中,我必须找到DOM元素的绝对位置。 但我不知道该怎么做。 我在网上搜索,我发现Javascript也一样。 我从这里发现了这个。 代码是这样的 , function getPosition(element) { var xPosition = 0; var yPosition = 0; while(element) { xPosition += (element.offsetLeft – element.scrollLeft + element.clientLeft); yPosition += (element.offsetTop – element.scrollTop + element.clientTop); element = element.offsetParent; } return { x: xPosition, y: yPosition }; } 当我尝试用Java编写此代码时,找不到offsetLeft,offsetTop变量。 你能告诉我,我怎么能用Java编写这段代码? 编辑1号 是否有任何使用Jsoup的方法?

用于读取javascript生成内容的java html解析器

我使用jsoup通过以下函数读取网页。 public Document getDocuement(String url){ Document doc = null; try { doc = Jsoup.connect(url).timeout(20*1000).userAgent(“Mozilla”).get(); } catch (Exception e) { return null; } return doc; } 但每当我试图阅读包含javascript生成内容的网页时, jsoup都不会读取这些内容。 即,页面的实际内容是通过一些javascript调用加载的。因此它不存在于该链接的页面源中。 例如,这个博客: http : //blog.rapporter.net/search/label/r 。 有没有办法在使用Jsoup解析页面时获取javascript生成的内容? 如果没有请建议任何可以解决这个问题的java html解析器..

如何使用Jsoup从链接中提取href?

我想得到这个链接: index.php?limitstart=0&picno=0&gallery_key=92 index.php?limitstart=0&picno=1&gallery_key=92 index.php?limitstart=0&picno=2&gallery_key=92 从这个使用Jsoup的html: 有任何想法吗? 谢谢

Jsoup检查字符串是否是有效的HTML

我遇到了Jsoup解析器的困难。 如何判断给定的字符串是否是有效的HTML代码? String input = “Your vote was successfully added.” boolean isValid = Jsoup.isValid(input); // isValid = true isValid标志是真的,因为Jsoup首先使用HtmlTreeBuilder:如果没有html,head或body标签丢失,它会自己添加它们。 然后它使用Cleaner类并根据给定的Whitelist进行检查。 有没有简单的方法来检查字符串是否是一个有效的HTML而没有Jsoup尝试使其成为HTML? 我的例子是AJAX响应,它是“text / html”内容类型。 然后它转到解析器,Jsoup添加了这个标签,结果,响应没有正确显示。 谢谢你的帮助。

必须导入哪些包?

import java.io.*; import java.net.URL; import java.net.URLConnection; import java.sql.*; public class linksfind{ public static void main(){ String html = “http://www.apple.com/pr/”; Document document = Jsoup.parse(html); // Can also take an URL. for (Element element : document.getElementsByTag(“a”)) { System.out.println(element.attr(“href”)); } } } 伙计们,在上面的程序中,在执行时我发现了这些错误。 怎么解决? 我已经在我的文件夹位置下载了Jsoup.jar文件。 我还该怎么办? linksfind.java:8: cannot find symbol symbol : class Document location: class linksfind Document […]

Google Dictionary API现在是否属于Google自定义引擎?

我在谷歌开发者论坛上问了同样的问题,寻找明确的方向。 我正在研究一个获得英语单词含义的项目。 谷歌搜索引擎全面提供结果。 我希望将这些结果(单词的含义,它的同义词,来自gstatic的音频源,1800年以来的使用图等等)作为我程序的输入以便进一步处理。 自定义搜索引擎是否已公开API或Google有明确的API? 之前我曾想过屏幕抓取,但如果谷歌为此提供API也会容易得多。 感谢期待。

使用Jsoup解析XML

我得到以下代表新闻文章的XML: Some text blalalala Small subtitle Some more text blbla List item 1 List item 2 Even more freakin text 我知道格式不理想,但现在我必须接受它。 文章应该如下: 一些文字blalalala 小副标题 列出项目 甚至更奇怪的文字 我用Jsoup解析这个XML。 我可以使用doc.ownText()获取标签内的文本,但后来我不知道其他东西(副标题)放在哪里,我只得到一个大String 。 为此使用基于事件的解析器会更好(我讨厌它们:()还是有可能做像doc.getTextUntilTagAppears(“tagName”)这样的事情? 编辑:为了澄清,我知道在下获取元素很热,我的问题是在获取文本,每次被元素中断时都会被分解。 我了解到我可以使用.textNodes()获取内容中的所有文本,效果很好,但是我再次知道我的文章中哪个文本节点属于哪一个(一个位于h2之前的顶部,另一个位于底部) )。

尝试在空对象引用上调用虚方法’java.lang.String org.jsoup.nodes.Element.ownText()’

我使用下面的代码通过使用jsoup从playstore获取versionName我正在获取详细信息,但它抛出了一些exception。 我的代码是 public class ForceUpdateAsync extends AsyncTask{ private String latestVersion; private String currentVersion; private Context context; public ForceUpdateAsync(String currentVersion, Context context){ this.currentVersion = currentVersion; this.context = context; } @Override protected JSONObject doInBackground(String… params) { try { latestVersion = Jsoup.connect(“https://play.google.com/store/apps/details?id=”+context.getPackageName()+”&hl=en”) .timeout(30000) .userAgent(“Mozilla/5.0 (Windows; U; WindowsNT 5.1; en-US; rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6”) .referrer(“http://www.google.com”) .get() .select(“div[itemprop=softwareVersion]”) .first() .ownText(); } […]

外部库会使应用程序变慢吗?

我正在构建一个从网页上抓取信息的应用程序。 为此,我选择使用名为Jsoup的html scraper,因为它使用起来非常简单。 Jsoup还依赖于Apache Commons Lang libray。 (他们一起共计385kB)。 所以Jsoup将用于下载页面并解析它。 我的问题是,如果使用这些简化库,而不是使用Androids内置库,是否会使我的应用程序变慢? (在下载数据和解析方面)。 我以为内部库会针对Android进行优化。

使用JSoup登录Linkedin

我需要用Jsoup登录Linkedin,最好是。 这是我用来登录其他网站但它不适用于Linkedin。 Connection.Response res = Jsoup .connect(“https://www.linkedin.com/uas/login?goback=&trk=hb_signin”) .data(“session_key”, mail, “session_password”, password) .method(Connection.Method.POST) .timeout(60000). // Also tried “https://www.linkedin.com/uas/login-submit” Map loginCookies = res.cookies(); //Checking a profile to see if it was succesful or if it returns the login page. Document currentPage = Jsoup.connect(someProfileLink).cookies(loginCookies).timeout(10000). System.out.println(“” + currentPage.text()); 我究竟做错了什么? 我需要能够通过使用网络爬虫来获取用户配置文件,但无论我尝试什么,我都无法获得登录cookie。