Tag: 维基百科

Java：使用SAXParser拆分大型XML文件: 我正在尝试使用java的SAXParser将大型XML文件拆分为较小的文件（特别是未压缩的大约28GB的维基百科转储）。我有一个扩展DefaultHandler的Pagehandler类： private class PageHandler extends DefaultHandler { private StringBuffer text; … @Override public void startElement(String uri, String localName, String qName, Attributes attributes) { text.append(“”); } @Override public void endElement(String uri, String localName, String qName) { text.append(“”); if (qName.equals(“page”)) { text.append(“\n”); pageCount++; writePage(); } if (pageCount >= maxPages) { rollFile(); } } @Override public void […]

使用与HashSet对应的固定Key创建HashMap。出发点: 我的目标是创建一个以String作为键的hashmap，并将条目值作为字符串的HashSet。 OUTPUT 这就是输出现在的样子： Hudson+(surname)=[Q2720681], Hudson,+Quebec=[Q141445], Hudson+(given+name)=[Q5928530], Hudson,+Colorado=[Q2272323], Hudson,+Illinois=[Q2672022], Hudson,+Indiana=[Q2710584], Hudson,+Ontario=[Q5928505], Hudson,+Buenos+Aires+Province=[Q10298710], Hudson,+Florida=[Q768903]] 根据我的想法，它应该是这样的： [Hudson+(surname)=[Q2720681,Q141445,Q5928530,Q2272323,Q2672022]] 目的是在Wikidata中存储特定名称，然后将与其相关的所有Q值消除歧义，例如：这是“布什”的页面。我希望布什成为关键，然后对于所有不同的出发点， Bush可能与维基数据的终端页面相关联的所有不同方式，我想存储相应的“Q值”，或者是唯一的阿尔法 – 数字标识符。我实际上在做的是尝试从维基百科歧义消除不同的名称，值，然后在wikidata中查找与该值相关联的唯一字母数字标识符。例如， Bush我们有： George HW Bush George W. Bush Jeb Bush Bush family Bush (surname) 因此，Q值为：乔治HW布什（Q23505）乔治W.布什（Q207）杰布·布什（Q221997）布什家族（Q2743830）布什（Q1484464）我的想法是数据结构应该按照以下方式解释关键： Bush 入围集： Q23505, Q207, Q221997, Q2743830, Q1484464 […]

jsoup – 从维基百科文章中提取文本: 我正在编写一些Java代码，以便使用Wikipedia在文本上实现NLP任务。如何使用JSoup提取维基百科文章的所有文本（例如http://en.wikipedia.org/wiki/Boston中的所有文本）？

在本地服务器上使用freebase数据？: 是否存在使用freebase数据转储创建类似于freebase提供的数据库的现有方法，但是在您自己的服务器上？相当多的freebase，但在本地，而不是通过API？我想有可能创建，但是现在有没有现成的解决方案？或者不使用API的类似数据的替代解决方案？我没有为dbpedia找到这个：|