如何为stanford tagger创建自己的训练语料库?

我必须用很多简短的手和当地的术语来分析非正式的英文文本。 因此我在考虑为stanford标记创建模型。

如何为斯坦福标记器创建我自己的标记语料库集?

语料库的语法是什么,我的语料库应该多长时间才能达到理想的性能?

要训​​练PoS标记器,请参阅此邮件列表文章 , 该文章也包含在MaxentTagger类的JavaDocs中。

edu.stanford.nlp.tagger.maxent.Train类的javadoc指定了训练格式:

训练文件应采用以下格式:每行一个单词和一个标记,用空格或制表符分隔。 每个句子应以EOS字标签对结尾。 (实际上,我不完全确定仍然如此,但它可能不会受到伤害。-wmorgan)

基本上,您为训练过程格式化的文本应该在每一行上都有一个标记,后跟一个标签,后跟一个标识符。 标识符可以是类似“LOC”的位置,“COR”代表公司,或“0”代表非实体代币。 例如

I 0 left 0 my 0 heart 0 in 0 Kansas LOC City LOC . 0 

当我们的团队训练了一系列分类器时,我们为每个训练文件提供了大约180,000个令牌的格式,我们看到了精确度的净改善但是召回的净减少。 (值得注意的是,精度的增加在统计上并不显着。)如果它对其他人有用,我描述了我们用来训练分类器的过程以及训练和默认值的p,r和f1值。 这里有分类器。

对于斯坦福分析器,您使用Penn树库格式 ,并查看斯坦福的常见问题解答,了解要使用的确切命令。 LexicalizedParser类的JavaDocs也提供适当的命令,尤其是:

 java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ -train trainFilesPath fileRange -saveToSerializedFile serializedGrammarFilename 

我试过:java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ -train trainFilesPath fileRange -saveToSerializedFile serializedGrammarFilename

但我有错误:

错误:无法找到或加载主类edu.stanford.nlp.parser.lexparser.LexicalizedParser