Tag: document classification

如何将属性类型更改为String(WEKA – CSV到ARFF)

我正在尝试使用WEKA库制作SMS SPAM分类器。 我有一个带有“标签”和“文本”标题的CSV文件。 当我使用下面的代码时,它会创建一个包含两个属性的ARFF文件: @attribute label {ham,spam} @attribute text {‘Go until jurong point’,’Ok lar…’, etc.} 目前,似乎text属性被格式化为名义属性,每个消息的文本都是一个值。 但是我需要text属性是一个String属性,而不是所有实例中所有文本的列表。 将text属性作为String将允许我使用StringToWordVectorfilter来训练分类器。 // load CSV CSVLoader loader = new CSVLoader(); loader.setSource(new File(args[0])); Instances data = loader.getDataSet(); // save ARFF ArffSaver saver = new ArffSaver(); saver.setInstances(data); saver.setFile(new File(args[1])); saver.setDestination(new File(args[1])); saver.writeBatch(); 我知道我可以像这样创建一个String属性: Attribute tmp = new Attribute(“tmp”, (FastVector) null); 但我不知道如何替换当前属性,或者在读取CSV之前设置属性类型。 […]