Tag: cluster analysis

如何聚类搜索引擎关键字?

从Google Analytics我有一个(长)关键字列表,人们在搜索引擎中使用这些关键字来查找我的网站。 我想找到’核心关键词’,假设的例子: java online training learning java scala training training for java online training java learn scala programming 理想的结果是:’java’,’在线培训’,’培训’,’scala’和’学习’。 困难似乎是检测完整的短语,忽略常用词(for)和处理变化(学习 – 学习)。 是否有可以做到这一点的库(最好是JVM)? 或者我可以自己实现一个合适的算法吗?

如何使用Weka的DBSCAN对实例进行聚类?

我一直在尝试使用Weka的DBSCAN聚类器来集群实例。 根据我的理解,我应该使用clusterInstance()方法,但令我惊讶的是,当看一下该方法的代码时,看起来实现忽略了参数: /** * Classifies a given instance. * * @param instance The instance to be assigned to a cluster * @return int The number of the assigned cluster as an integer * @throws java.lang.Exception If instance could not be clustered * successfully */ public int clusterInstance(Instance instance) throws Exception { if (processed_InstanceID >= database.size()) […]

在ELKI中运行聚类算法

我需要以编程方式使用ELKI运行k-medoids聚类算法。 我有一个相似矩阵,我希望输入到算法中。 是否有任何代码片段可用于运行ELKI算法? 我基本上需要知道如何创建Database和Relation对象,创建自定义距离函数,以及读取算法输出。 不幸的是,ELKI教程( http://elki.dbs.ifi.lmu.de/wiki/Tutorial )侧重于GUI版本和实现新算法,并试图通过查看Javadoc来编写代码令人沮丧。 如果有人知道任何易于使用的k-medoids库,那么这也可能是这个问题的一个很好的答案。

使用WEKA API定义集群的输入数据

我想聚集由纬度和经度指定的点。 我正在使用WEKA API问题出在Instances instances = new Instances(40.01,1.02); 那么,如何在不使用ARFF文件的情况下指定输入数据? 我想只是将一个数组读入Instances 。 import java.io.Reader; import weka.clusterers.ClusterEvaluation; import weka.clusterers.SimpleKMeans; import weka.core.Instances; public class test { /** * @param args */ public static void main(String[] args) { Instances instances = new Instances(40.01,1.02); SimpleKMeans simpleKMeans = new SimpleKMeans(); simpleKMeans.buildClusterer(instances); ClusterEvaluation eval = new ClusterEvaluation(); eval.setClusterer(simpleKMeans); eval.evaluateClusterer(new Instances(instances)); eval.clusterResultsToString(); } }