维基百科的解析器

我下载了一个维基百科转储,我想将维基格式转换为我的对象格式。 是否有可用的wiki解析器将对象转换为XML?

请参阅java-wikipedia-parser 。 我从来没有使用它,但根据文档:

解析器附带一个HTML生成器。 但是,您可以通过传递自己的be.devijver.wikipedia.Visitor接口实现来控制生成的输出。

我不知道维基百科转储的xml格式究竟如何。 但是,如果文本的一部分是维基百科标记,我建议调查http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html 。 这是apache lucene的Wikipedia包的类之一。 我没有使用它,但apache lucene是一个非常成熟的项目,所以值得尝试它 – 在这种情况下是实验 – 包。

JWPL解析器使用MediaWiki标记分析文本结构,并将其表示为Java对象。 这允许对例如维基百科或维基词典的内容进行结构化访问。 没有独立的解析器版本,因为它是JWPL Wikipedia API版本的一部分。 但是,无需使用JWPL访问Wikipedia,就可以完美地使用它。

http://code.google.com/p/jwpl/wiki/JWPLParser

这可能会有所帮助: 包含从mediawiki到其他格式(包括docbook)的转换器的页面 。 Docbook是一种基于xml的标准格式,可能符合您的需求(mediawiki内容的xml表示)

您可以使用各种工具来解析内容。 所有脚本语言都有模块。 例如,Perl语言具有Text :: Markup :: Trac ,它是Text :: Markup的Trac wiki语法解析器。 它会生成一个HTML文件。

Wiki Parser将Wikipedia转储转换为解析的XML。 可能正是你所需要的。

你可以尝试wikiprep它是一个perl维基百科解析器检查它的页面

它输出了许多文件,其中一些是

1-维基百科解析为XML 2- cat-hier文件,其中包含维基百科类别层次结构

我已经尝试了它并且非常有用它唯一的问题是它需要高内存可用于处理最可能超过4GB RAM也可以从这里下载预备件的XML版本,也可以在页面上找到