信息增益计算文本文件?

我正在研究“使用信息增益,PCA和遗传算法进行文本分类”但是在对文档进行预处理 (词干,删除词,TFIDF)之后,混淆了如何提前获取信息增益部分。

我的文件包含单词TFIDF值。

喜欢WORD – TFIDF VALUE

在一起(字) – 0.235(tfidf值)

来(字) – 0.2548(tfidf值)

当使用weka获取信息时(“ InfoGainAttributeEval.java ”),它需要.arff文件格式作为输入。

有没有将文本文件转换为.arff格式。 或任何其他方式预先形成除weka以外的信息收益?

是否还有其他开源用于计算文档的信息收益?

我找到了答案。 在这里我们必须生成arff文件。

在.arff文件中

@RELATION部分将包含预处理后整个文档中的所有单词。每个单词都是真实的,因为tfidf值是一个实数值。

@data部分将包含在预处理期间计算的tfidf值。 例如,首先将包含tfidf值,所有单词出现在第一个文档中,最后是colunm文档分类。

@RELATION filename @ATTRIBUTE word1 real @ATTRIBUTE word2 real @ATTRIBUTE word3 real . . . .so on @ATTRIBUTE class {cacm,cisi,cran,med} @data 0.5545479562,0.27,0.554544479562,0.4479562,cacm 0.5545479562,0.27,0.554544479562,0.4479562,cacm 0.55454479562,0.1619617,0.579562,0.5542,cisi 0.5545479562,0.27,0.554544479562,0.4479562,cisi 0.0,0.2396113617,0.44479562,0.2,cran 0.5545479562,0.27,0.554544479562,0.4479562,carn 0.5545177444479562,0.26196113617,0.0,0.0,med 0.5545479562,0.27,0.554544479562,0.4479562,med 

生成此文件后,您可以将此文件作为InfoGainAttributeEval.java输入。 这对我有用。