Tag: 维基百科

Java:使用SAXParser拆分大型XML文件

我正在尝试使用java的SAXParser将大型XML文件拆分为较小的文件(特别是未压缩的大约28GB的维基百科转储)。 我有一个扩展DefaultHandler的Pagehandler类: private class PageHandler extends DefaultHandler { private StringBuffer text; … @Override public void startElement(String uri, String localName, String qName, Attributes attributes) { text.append(“”); } @Override public void endElement(String uri, String localName, String qName) { text.append(“”); if (qName.equals(“page”)) { text.append(“\n”); pageCount++; writePage(); } if (pageCount >= maxPages) { rollFile(); } } @Override public void […]

维基百科的解析器

我下载了一个维基百科转储,我想将维基格式转换为我的对象格式。 是否有可用的wiki解析器将对象转换为XML?

使用与HashSet对应的固定Key创建HashMap。 出发点

我的目标是创建一个以String作为键的hashmap,并将条目值作为字符串的HashSet。 OUTPUT 这就是输出现在的样子: Hudson+(surname)=[Q2720681], Hudson,+Quebec=[Q141445], Hudson+(given+name)=[Q5928530], Hudson,+Colorado=[Q2272323], Hudson,+Illinois=[Q2672022], Hudson,+Indiana=[Q2710584], Hudson,+Ontario=[Q5928505], Hudson,+Buenos+Aires+Province=[Q10298710], Hudson,+Florida=[Q768903]] 根据我的想法,它应该是这样的: [Hudson+(surname)=[Q2720681,Q141445,Q5928530,Q2272323,Q2672022]] 目的是在Wikidata中存储特定名称,然后将与其相关的所有Q值消除歧义,例如: 这是“布什”的页面。 我希望布什成为关键,然后对于所有不同的出发点, Bush可能与维基数据的终端页面相关联的所有不同方式,我想存储相应的“Q值”,或者是唯一的阿尔法 – 数字标识符。 我实际上在做的是尝试从维基百科歧义消除不同的名称,值,然后在wikidata中查找与该值相关联的唯一字母数字标识符。 例如, Bush我们有: George HW Bush George W. Bush Jeb Bush Bush family Bush (surname) 因此,Q值为: 乔治HW布什 (Q23505) 乔治W.布什 (Q207) 杰布·布什 (Q221997) 布什家族 (Q2743830) 布什 (Q1484464) 我的想法是数据结构应该按照以下方式解释 关键: Bush 入围集: Q23505, Q207, Q221997, Q2743830, Q1484464 […]

jsoup – 从维基百科文章中提取文本

我正在编写一些Java代码,以便使用Wikipedia在文本上实现NLP任务。 如何使用JSoup提取维基百科文章的所有文本(例如http://en.wikipedia.org/wiki/Boston中的所有文本)?

在本地服务器上使用freebase数据?

是否存在使用freebase数据转储创建类似于freebase提供的数据库的现有方法,但是在您自己的服务器上? 相当多的freebase,但在本地,而不是通过API? 我想有可能创建,但是现在有没有现成的解决方案? 或者不使用API​​的类似数据的替代解决方案? 我没有为dbpedia找到这个:|