Java JSoup错误提取URL

我正在创建一个应用程序，它可以让我从特定网站获取值到控制台。该值来自元素，我正在使用JSoup 。

我的挑战与此错误有关：

获取URL时出错

这是我的Java代码：

 public class TestSl { public static void main(String[] args) throws IOException { Document doc = Jsoup.connect("https://stackoverflow.com/questions/11970938/java-html-parser-to-extract-specific-data").get(); Elements spans = doc.select("span[class=hidden-text]"); for (Element span: spans) { System.out.println(span.text()); } } }

这是控制台上的错误：

线程“main”中的exceptionorg.jsoup.HttpStatusException：HTTP错误提取URL。 Status = 403，URL = Java Html解析器提取特定数据？ at org.jsoup.helper.HttpConnection $ Response.execute（HttpConnection.java:590）org.jsoup.helper.HttpConnection $ Response.execute（HttpConnection.java:540）at org.jsoup.helper.HttpConnection.execute（HttpConnection） .java：227）在testSl.main的org.jsoup.helper.HttpConnection.get（HttpConnection.java:216）（TestSl.java:19）

我做错了什么，如何解决？

设置用户代理标头：

 .userAgent("Mozilla")

例：

 Document document = Jsoup.connect("https://stackoverflow.com/questions/11970938/java-html-parser-to-extract-specific-data").userAgent("Mozilla").get(); Elements elements = document.select("span.hidden-text"); for (Element element : elements) { System.out.println(element.text()); }

堆栈交换

收件箱

声誉和徽章

来源： https ： //stackoverflow.com/a/7523425/1048340

也许这是相关的： https ： //meta.stackexchange.com/questions/277369/a-terms-of-service-update-restricting-companies-that-scrape-your-profile-informa

Java JSoup错误提取URL

匹配至少有一个共同字的字符串

更改JTable中特定行的颜色

Java CMS GC行为

实现Comparable，compareTo名称冲突：“具有相同的擦除，但不会覆盖其他”

java email提取正则表达式？

我的jar文件不会加载图片

Javareflection – 获取包列表

Javagenerics：非法的前向引用

我应该使用Java 8默认方法来手动实现Spring Data存储库方法吗？

使用JpaSpecificationExecutor时使用QueryHint