Tag: cluster analysis

如何聚类搜索引擎关键字？: 从Google Analytics我有一个（长）关键字列表，人们在搜索引擎中使用这些关键字来查找我的网站。我想找到’核心关键词’，假设的例子： java online training learning java scala training training for java online training java learn scala programming 理想的结果是：’java’，’在线培训’，’培训’，’scala’和’学习’。困难似乎是检测完整的短语，忽略常用词（for）和处理变化（学习 – 学习）。是否有可以做到这一点的库（最好是JVM）？或者我可以自己实现一个合适的算法吗？

如何使用Weka的DBSCAN对实例进行聚类？: 我一直在尝试使用Weka的DBSCAN聚类器来集群实例。根据我的理解，我应该使用clusterInstance()方法，但令我惊讶的是，当看一下该方法的代码时，看起来实现忽略了参数： /** * Classifies a given instance. * * @param instance The instance to be assigned to a cluster * @return int The number of the assigned cluster as an integer * @throws java.lang.Exception If instance could not be clustered * successfully */ public int clusterInstance(Instance instance) throws Exception { if (processed_InstanceID >= database.size()) […]

在ELKI中运行聚类算法: 我需要以编程方式使用ELKI运行k-medoids聚类算法。我有一个相似矩阵，我希望输入到算法中。是否有任何代码片段可用于运行ELKI算法？我基本上需要知道如何创建Database和Relation对象，创建自定义距离函数，以及读取算法输出。不幸的是，ELKI教程（ http://elki.dbs.ifi.lmu.de/wiki/Tutorial ）侧重于GUI版本和实现新算法，并试图通过查看Javadoc来编写代码令人沮丧。如果有人知道任何易于使用的k-medoids库，那么这也可能是这个问题的一个很好的答案。

使用WEKA API定义集群的输入数据: 我想聚集由纬度和经度指定的点。我正在使用WEKA API问题出在Instances instances = new Instances(40.01,1.02); 那么，如何在不使用ARFF文件的情况下指定输入数据？我想只是将一个数组读入Instances 。 import java.io.Reader; import weka.clusterers.ClusterEvaluation; import weka.clusterers.SimpleKMeans; import weka.core.Instances; public class test { /** * @param args */ public static void main(String[] args) { Instances instances = new Instances(40.01,1.02); SimpleKMeans simpleKMeans = new SimpleKMeans(); simpleKMeans.buildClusterer(instances); ClusterEvaluation eval = new ClusterEvaluation(); eval.setClusterer(simpleKMeans); eval.evaluateClusterer(new Instances(instances)); eval.clusterResultsToString(); } }