Tag:

在字典上的部分匹配

我正在使用GATE(基于Java的NLP框架),并希望找到与字典部分匹配的单词。 例如,我有一个疾病词典,其中包含以下术语 Congestive cardiac failure Congestive Heart Failure Colon Cancer . . . Thousands of more terms 让我们假设我有一个字符串”Father had cardiac failure last year” ,我希望将“心力衰竭”识别为部分匹配,因为它是字典中术语的一部分。 我在Python,JS和C#中看到了关于类似主题的一些讨论,但我不确定在这种情况下可以提供哪些帮助。 我想知道我是否可以在这里使用Aho-Corrasick。

从GATE数据存储区读取带注释的数据

我使用GATE通过其包含的情感手动注释大量文本。 为了进一步处理这个文本,我喜欢将它从数据存储区导出到我自己的Java应用程序中。 我没有找到关于如何做到这一点的文档。 我已经编写了一个将数据导入数据存储区的程序,但我不知道如何从数据存储区中取出注释。 我还尝试使用Luke( https://code.google.com/p/luke/ )打开基于lucene的数据存储区。 它是一个能够读取Lucene索引的工具。 但是不可能使用该工具打开Gate Lucene数据存储区:(有没有人知道如何从数据存储区读取带注释的文本?

解析GATE文档以获取共同参考文本

我正在创建一个用于查找共同引用文本的GATE应用程序。 它工作正常,我已通过GATE中提供的导出选项创建了应用程序的压缩文件。 现在我正在尝试在我的Java代码中使用相同的代码。 Gate.runInSandbox(true); Gate.setGateHome(new File(gateHome)); Gate.setPluginsHome(new File(gateHome, “plugins”)); Gate.init(); URL applicationURL = new URL(“file:” + new Path(gateHome, “application.xgapp”).toString()); application = (CorpusController) PersistenceManager.loadObjectFromUrl(applicationURL); corpus = Factory.newCorpus(“Megaki Corpus”); application.setCorpus(corpus); Document document = Factory.newDocument(text); corpus.add(document); application.execute(); corpus.clear(); 现在我该如何解析这个文档并获得共同参考文本?