Tag: jsoup

如何使用Jsoup替换每个标记中的“text”

我有以下html: text text text text text 如何使用Jsoup库将“text”替换为每个标记中的“word”。 我想看看: word word word word word 谢谢你的任何建议! UPD:谢谢你的回答,但我找到了多种方式: Element entry = doc.select(“div”).first(); Elements tags = entry.getAllElements(); for (Element tag : tags) { for (Node child : tag.childNodes()) { if (child instanceof TextNode && !((TextNode) child).isBlank()) { System.out.println(child); //text ((TextNode) child).text(“word”); //replace to word } } }

如何使用重复数据创建Jsoup.select.Elements?

我有一个网页: 10:30 12:05 12:30 14:05 12:30 14:05 14:30 16:05 16:30 18:05 我在做: doc.select(“table[id=timetable]”).select(“tbody”).select(“td[class=time]”); 我应该得到: 10:30 12:05 12:30 14:05 12:30 14:05 14:30 16:05 16:30 18:05 but I got: 10:30 12:05 12:30 14:05 14:30 16:05 16:30 18:05 我做对了吗?

使用JSOUP登录ConEd网站

我已经广泛阅读了这个和我如何尝试了许多不同的变化,但我无法让它工作。 基本上,我只想登录ConEdison网站并查看我的账单历史记录。 这是我有的: Connection.Response loginForm = Jsoup.connect(“https://apps.coned.com/cemyaccount/NonMemberPages/Login.aspx?lang=eng”) .data(“_LASTFOCUS”,””) .data(“_EVENTTARGET”,””) .data(“_EVENTARGUMENT”,””) .data(“_VIEWSTATE”, viewState) .data(“_EVENTVALIDATION”, eventValidation) .data(“ctl00$Main$Login1$UserName”, username) .data(“ctl00$Main$Login1$Password”, password) .data(“ctl00$Main$Login1$LoginButton”, “Sign In”) .userAgent(“Mozilla/5.0”) .method(Method.POST) .execute(); Map loginCookies = loginForm.cookies(); Document document = Jsoup.connect(“https://apps.coned.com/CEMyAccount/CSOL/BillHistory.aspx?lang=eng”) .cookies(loginCookies) .get(); Elements data = document.select(“table.ctl00_Main_lvBillHistory_Table1”); //checking if it found the right page System.out.println(“document: ” + document); //checking if it found the table […]

使用Jsoup.parse时如何保持换行符?

这不是重复的。 这是一个类似的问题 ,但这些答案中没有一个能够处理真正的html文件。 一个人可以保存任何HTML,即使是这个,并试图运行任何解决方案的答案…他们都没有完全解决问题 问题是 我的桌面上有一个已保存的.htm文件。 我需要从中获取纯文本。 但是我确实需要保留换行符,以便文本不在一行或几行上。 我从这里尝试了以下和所有方法 FileInputStream in = new FileInputStream(“C:\\…myfile.htm”); String htmlText = IOUtils.toString(in); for (String line : htmlText.split(“\n”)) { String stripped = Jsoup.parse(line).text(); System.out.println(stripped); } 这确实只保留了html文件的行。 但是,文本仍然混乱,因为 , 被删除。 我如何解析,以便文本保留所有自然换行符。

使用JSOUP将文档加载到WebView

我正在尝试将网页的一部分解析为WebView。 我正在使用jsoup库来获取我需要的页面的一部分,然后加载到webview。 这是代码: public void loadArticleWithHTML (){ Thread downloadThread = new Thread() { public void run() { try { doc = Jsoup.connect(“http://en.wikipedia.org/”).get(); element = doc.select(“#mp-itn ba”); } catch (java.io.IOException e){ e.printStackTrace(); } } }; downloadThread.start(); mWebView.setWebViewClient(new WebViewClient() { public void onReceivedError(WebView view, int errorCode, String description, String failingUrl) { Toast.makeText(getApplicationContext(), description, Toast.LENGTH_SHORT).show(); } }); try […]

输出JSoup,不添加空格和元素周围的换行符

我正在使用JSoup解析并输出一个xml文件(当然还要修改它们之间的元素)。 输出文件有一些额外的空格和换行符。 我想知道我是否可以用原始格式打印。 原版的: 4 0 major … 新: 4 0 major … 关于如何从元素中删除空格/进入的任何想法? 我目前正在阅读并打印文档,如下所示: doc = Jsoup.parse(is, “UTF-8”, “”, Parser.xmlParser()); BufferedWriter htmlWriter = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(“output.xml”), “UTF-8”)); htmlWriter.write(doc.toString());

如何用jsoup刮掉ajax加载的内容

我使用JSOUP进行抓取,它的工作完美,直到ajax和javascript没有播放他们的角色来显示网页内容。 现在大家都有任何线索,如何在页面完全加载后刮掉那些用ajax或JavaScript显示的内容。 提前致谢 !!

防止Jsoup丢弃额外的空格

我正在使用Jsoup来清理表单中的用户输入。 有问题的表单包含一个需要纯文本的 。 提交表单时,我用Jsoup.clean(textareaContents)清理输入; 但是,由于html忽略了额外的空格, Jsoup.clean()将从输入中删除有价值的空白字符。 例如,如果有人在textarea输入了一些文本行: hello test 在Jsoup.clean() ,您将拥有: hello test 你怎么能让Jsoup.clean()保留空格? 我知道它是为解析html而设计的,这不是html,所以有更好的选择吗?

通过XSSFRichTexString和Jsoup进行Apache POI Excel文本格式化

我从数据库中获取了html数据。 以下是示例: Iam Bold Iam Red Colored and Underlined Just a Normal Text Iam Bold and italic with colored and underlined 现在我的excel输出中存在相同的格式。 请参阅下面的图片了解excel输出。 我知道通过使用Jsoup,你可以解析上面的html并使用XSSFRichTextString,你可以在xssfcell中显示richtext。 同样通过使用子弹字符我可以获得子弹图标。 但我需要输出中的完整文本。 但我不知道如何准确地做到这一点来获得确切的输出。 如何使用XSSFRichTextString做到这一点? 请帮帮我

为什么以下执行程序服务java Thread程序没有关闭?

import java.io.BufferedReader; import java.io.File; import java.io.FileNotFoundException; import java.io.FileReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.UnknownHostException; import java.util.ArrayList; import java.util.Hashtable; import java.util.Iterator; import java.util.List; import java.util.concurrent.BlockingQueue; import java.util.concurrent.ExecutorService; import java.util.concurrent.Executors; import java.util.concurrent.LinkedBlockingQueue; import java.util.concurrent.RejectedExecutionHandler; import java.util.concurrent.ThreadPoolExecutor; import java.util.concurrent.TimeUnit; import org.apache.http.HttpResponse; import org.apache.http.client.ClientProtocolException; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import org.apache.http.config.SocketConfig; import org.apache.http.impl.client.HttpClientBuilder; import org.apache.http.impl.conn.PoolingHttpClientConnectionManager; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import […]