句子分类(分类)

我一直在阅读有关文本分类的文章,并发现了几种可用于分类的Java工具,但我仍然想知道:文本分类是否与句子分类相同!

有没有专注于句子分类的工具?

“文本分类”和“句子分类”之间没有正式的区别。 毕竟,句子是一种文本。 但一般来说,当人们谈论文本分类时,恕我直言,他们意味着更大的文本单位,如文章,评论或演讲。 将政治家的演讲分为民主派或共和党人比分类推文要容易得多。 如果每个实例都有大量文本,那么您不需要为每个训练实例提供所有可以提供给您的信息,并且可以通过一个单词的朴素贝叶斯模型获得相当不错的性能。

基本上,如果你在一组句子中抛出现成的weka分类器,你可能无法获得所需的性能数字。 您可能需要使用POS标签,解析树,单词排序,ngrams等来增加句子中的数据。还可以获得任何相关的元数据,例如创建时间,创建位置,句子作者的属性等。显然,所有这些都取决于你究竟想要分类的是什么……为你准备的function需要对手头的问题直观有意义。