如何为stanford tagger创建自己的训练语料库？

我必须用很多简短的手和当地的术语来分析非正式的英文文本。因此我在考虑为stanford标记创建模型。

如何为斯坦福标记器创建我自己的标记语料库集？

语料库的语法是什么，我的语料库应该多长时间才能达到理想的性能？

要训练PoS标记器，请参阅此邮件列表文章，该文章也包含在MaxentTagger类的JavaDocs中。

edu.stanford.nlp.tagger.maxent.Train类的javadoc指定了训练格式：

训练文件应采用以下格式：每行一个单词和一个标记，用空格或制表符分隔。每个句子应以EOS字标签对结尾。（实际上，我不完全确定仍然如此，但它可能不会受到伤害。-wmorgan）

基本上，您为训练过程格式化的文本应该在每一行上都有一个标记，后跟一个标签，后跟一个标识符。标识符可以是类似“LOC”的位置，“COR”代表公司，或“0”代表非实体代币。例如

I 0 left 0 my 0 heart 0 in 0 Kansas LOC City LOC . 0

当我们的团队训练了一系列分类器时，我们为每个训练文件提供了大约180,000个令牌的格式，我们看到了精确度的净改善但是召回的净减少。（值得注意的是，精度的增加在统计上并不显着。）如果它对其他人有用，我描述了我们用来训练分类器的过程以及训练和默认值的p，r和f1值。这里有分类器。

对于斯坦福分析器，您使用Penn树库格式，并查看斯坦福的常见问题解答，了解要使用的确切命令。 LexicalizedParser类的JavaDocs也提供适当的命令，尤其是：

 java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ -train trainFilesPath fileRange -saveToSerializedFile serializedGrammarFilename

我试过：java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \ -train trainFilesPath fileRange -saveToSerializedFile serializedGrammarFilename

但我有错误：

错误：无法找到或加载主类edu.stanford.nlp.parser.lexparser.LexicalizedParser

如何为stanford tagger创建自己的训练语料库？

以编程方式将数据源添加到嵌入式tomcat 7中的JNDI上下文

如何使用log4j的相同记录器将不同的信息写入两个不同的文件？

Treeset.contains（）问题

如何让一个线程不冻结整个JFrame。 JAVA

将BigDecimal舍入到最接近的5美分

Talend – 从1行生成n个多行

在数据库更新期间防止会话超时

打印整个java项目的源代码

int中使用的计数位数

使用构造函数初始化变量