Tag: 门

在字典上的部分匹配: 我正在使用GATE（基于Java的NLP框架），并希望找到与字典部分匹配的单词。例如，我有一个疾病词典，其中包含以下术语 Congestive cardiac failure Congestive Heart Failure Colon Cancer . . . Thousands of more terms 让我们假设我有一个字符串”Father had cardiac failure last year” ，我希望将“心力衰竭”识别为部分匹配，因为它是字典中术语的一部分。我在Python，JS和C＃中看到了关于类似主题的一些讨论，但我不确定在这种情况下可以提供哪些帮助。我想知道我是否可以在这里使用Aho-Corrasick。

从GATE数据存储区读取带注释的数据: 我使用GATE通过其包含的情感手动注释大量文本。为了进一步处理这个文本，我喜欢将它从数据存储区导出到我自己的Java应用程序中。我没有找到关于如何做到这一点的文档。我已经编写了一个将数据导入数据存储区的程序，但我不知道如何从数据存储区中取出注释。我还尝试使用Luke（ https://code.google.com/p/luke/ ）打开基于lucene的数据存储区。它是一个能够读取Lucene索引的工具。但是不可能使用该工具打开Gate Lucene数据存储区:(有没有人知道如何从数据存储区读取带注释的文本？

解析GATE文档以获取共同参考文本: 我正在创建一个用于查找共同引用文本的GATE应用程序。它工作正常，我已通过GATE中提供的导出选项创建了应用程序的压缩文件。现在我正在尝试在我的Java代码中使用相同的代码。 Gate.runInSandbox(true); Gate.setGateHome(new File(gateHome)); Gate.setPluginsHome(new File(gateHome, “plugins”)); Gate.init(); URL applicationURL = new URL(“file:” + new Path(gateHome, “application.xgapp”).toString()); application = (CorpusController) PersistenceManager.loadObjectFromUrl(applicationURL); corpus = Factory.newCorpus(“Megaki Corpus”); application.setCorpus(corpus); Document document = Factory.newDocument(text); corpus.add(document); application.execute(); corpus.clear(); 现在我该如何解析这个文档并获得共同参考文本？