求引文解析器

我需要一个解析器来扫描学术文本,提取引文,并将这些引用解析为它们的组成部分(作者,标题,出版日期等)。

我尝试过Paracite,但速度慢得令人沮丧,并没有产生高质量的结果。

任何语言都可以,但Java是首选。

看看ParsCit

这是ParsCit项目的主页,它执行两个任务:1)引用字符串解析,有时也称为引用解析或引用提取,2)科学文档的逻辑结构解析。 它被构建为有监督的机器学习过程,它使用条件随机场作为其学习机制。 您可以下载以下代码,在线解析字符串或将批处理作业发送到我们的Web服务。 该代码包含训练数据,特征生成器和shell脚本,以将系统连接到Web服务(在此Web站点上使用)。

我们最近遇到了类似的问题,并最终编写了基于ParsCit的自己的解析器,但使用Wapiti而不是CRF ++作为条件随机字段模型。 就像Mike上面提到的那样,基于ML的解析器的问题是获得良好的标记训练数据; 为此,我们编写了一个可视化编辑器,可以标记结果(并将其保存为训练数据)。 这种方法适用于解析参考书目。

如果有人有兴趣,我们已经在anystyle.io上提供了解析器和编辑器。

项目清单如下: https : //forums.zotero.org/discussion/1211/

Cb2bib使用正则表达式http://www.molspaces.com/cb2bib/

Citeseer使用了大量的作者姓名和头衔。 您可以查看他们的出版物列表

这是一个项目,但在python中: https : //code.google.com/p/pdfssa4met/

另请参阅这些stackoverflow问题:* 从研究论文的PDF中提取信息

您还可以尝试使用这个小工具将学术引文解析为字段:

http://citationparser.com

Citationparser.com仍然是测试版,但2017版本特别适用于期刊文章,但也适用于专着和书籍章节。

列表不必是一种风格,但可以是不同官方或非官方风格的混合

您可以浏览参考文献并检查全文,也可以将其导出为Endnote文件(.ENL)。 我开发此工具仅适用于数百种标题的较小列表。 如果粘贴一个包含1000多个标题的列表,它将运行得慢得多。

您可以尝试查看像Lucene这样的索引/搜索库