如何使用Jsoup从相对HTML链接中提取绝对URL?

我正在使用Jsoup来提取网页的URL。 这些URL的href属性是相对的:

 example 

这是我的尝试:

 Document document = Jsoup.connect(url).get(); Elements results = document.select("div.results"); Elements dls = results.select("dl"); for (Element dl : dls) { String url = dl.select("a").attr("href"); } 

这工作正常,但如果我使用

 String url = dl.select("a").attr("abs:href"); 

要获得像http://example.comhttps://stackoverflow.com/text这样的绝对url,它就无法使用。 我如何获得绝对URL?

你需要Element#absUrl()

 String url = dl.select("a").absUrl("href"); 

你可以顺便缩短选择:

 Document document = Jsoup.connect(url).get(); Elements links = document.select("div.results dl a"); for (Element link : links) { String url = link.absUrl("href"); } 

String url = dl.select("a").absUrl("href");

不正确,因为dl.select("a")不会返回单个项目而是返回集合。 您需要按索引获取元素

例如:

 Elements elems = dl.select("a"); Element a1 = elems.get(0); //0 is the index first element increasing to (elems.size()-1) now you can do a1.absUrl("href"); 

如果您确定上面的选择只会产生一个项目,或者您想要的项目是第一项,您可以:

 String url = dl.select("a").get(0).absUrl("href"); 

哪个也一样

 String url = dl.select("a").first().absUrl("href"); 

它不一定是第一个元素,你可以随时替换String url = dl.select("a").get(0).absUrl("href");的0 String url = dl.select("a").get(0).absUrl("href"); 使用元素的索引。 或者使用更具体的选择,只会产生一个元素。