求引文解析器

我需要一个解析器来扫描学术文本，提取引文，并将这些引用解析为它们的组成部分（作者，标题，出版日期等）。

我尝试过Paracite，但速度慢得令人沮丧，并没有产生高质量的结果。

任何语言都可以，但Java是首选。

看看ParsCit ：

这是ParsCit项目的主页，它执行两个任务：1）引用字符串解析，有时也称为引用解析或引用提取，2）科学文档的逻辑结构解析。它被构建为有监督的机器学习过程，它使用条件随机场作为其学习机制。您可以下载以下代码，在线解析字符串或将批处理作业发送到我们的Web服务。该代码包含训练数据，特征生成器和shell脚本，以将系统连接到Web服务（在此Web站点上使用）。

我们最近遇到了类似的问题，并最终编写了基于ParsCit的自己的解析器，但使用Wapiti而不是CRF ++作为条件随机字段模型。就像Mike上面提到的那样，基于ML的解析器的问题是获得良好的标记训练数据; 为此，我们编写了一个可视化编辑器，可以标记结果（并将其保存为训练数据）。这种方法适用于解析参考书目。

如果有人有兴趣，我们已经在anystyle.io上提供了解析器和编辑器。

项目清单如下： https ： //forums.zotero.org/discussion/1211/

Cb2bib使用正则表达式http://www.molspaces.com/cb2bib/

Citeseer使用了大量的作者姓名和头衔。您可以查看他们的出版物列表

这是一个项目，但在python中： https ： //code.google.com/p/pdfssa4met/

另请参阅这些stackoverflow问题：* 从研究论文的PDF中提取信息

您还可以尝试使用这个小工具将学术引文解析为字段：

http://citationparser.com

Citationparser.com仍然是测试版，但2017版本特别适用于期刊文章，但也适用于专着和书籍章节。

列表不必是一种风格，但可以是不同官方或非官方风格的混合

您可以浏览参考文献并检查全文，也可以将其导出为Endnote文件（.ENL）。我开发此工具仅适用于数百种标题的较小列表。如果粘贴一个包含1000多个标题的列表，它将运行得慢得多。

您可以尝试查看像Lucene这样的索引/搜索库

求引文解析器

Json数组上的Java循环？

ThreadLocal资源泄漏和WeakReference

JTable中的JSpinner（时间）

如何使用Java还原MySQL数据库备份

JButton背景图片

jersey 2 + spring 4 + jetty-maven-plugin

如何在JENA中添加合格的基数

将文件从SFTP直接下载到HTTP响应，而不使用中间文件

Hibernate计算具有一些标准的行

Spring组件扫描在osgi容器中被破坏