信息增益计算文本文件？

我正在研究“使用信息增益，PCA和遗传算法进行文本分类”但是在对文档进行预处理 （词干，删除词，TFIDF）之后，混淆了如何提前获取信息增益部分。

我的文件包含单词和TFIDF值。

喜欢WORD – TFIDF VALUE

在一起（字） – 0.235（tfidf值）

来（字） – 0.2548（tfidf值）

当使用weka获取信息时（“ InfoGainAttributeEval.java ”），它需要.arff文件格式作为输入。

有没有将文本文件转换为.arff格式。或任何其他方式预先形成除weka以外的信息收益？

是否还有其他开源用于计算文档的信息收益？

我找到了答案。在这里我们必须生成arff文件。

在.arff文件中

@RELATION部分将包含预处理后整个文档中的所有单词。每个单词都是真实的，因为tfidf值是一个实数值。

@data部分将包含在预处理期间计算的tfidf值。例如，首先将包含tfidf值，所有单词出现在第一个文档中，最后是colunm文档分类。

@RELATION filename @ATTRIBUTE word1 real @ATTRIBUTE word2 real @ATTRIBUTE word3 real . . . .so on @ATTRIBUTE class {cacm,cisi,cran,med} @data 0.5545479562,0.27,0.554544479562,0.4479562,cacm 0.5545479562,0.27,0.554544479562,0.4479562,cacm 0.55454479562,0.1619617,0.579562,0.5542,cisi 0.5545479562,0.27,0.554544479562,0.4479562,cisi 0.0,0.2396113617,0.44479562,0.2,cran 0.5545479562,0.27,0.554544479562,0.4479562,carn 0.5545177444479562,0.26196113617,0.0,0.0,med 0.5545479562,0.27,0.554544479562,0.4479562,med

生成此文件后，您可以将此文件作为InfoGainAttributeEval.java输入。这对我有用。

信息增益计算文本文件？

使用createBufferStrategy（）的正确方法是什么？

JFreeChart交互式图表编辑处理ChartMouseEvent

在有限的时间内进行多个查询的最佳解决方案

JSch 0.1.53 session.connect（）抛出“IO流读取结束”

Hibernate使用嵌入的ElementCollection抛出ConcurrentModificationException

使用Java编写SSL检查器

为什么这个流没有返回元素？

如何修复“方法代码..超过65535字节限制”？

JNA Struct和指针映射

使用来自authorized_keys的公钥和Java安全性