Tag: 数据挖掘

从url中检索信息

我想制作一个程序,将一些信息检索到一个url。 例如,我从下面给出了url 如何检索“TAGS”选项卡下方的所有单词,如 Black Library幻想Thanquol&Boneripper Thanquol和Bone Ripper Warhammer? 我正在考虑使用java,并设计一个数据挖掘包装器,但我不知道如何启动。 有人能给我一些建议吗? 编辑:你给了我很好的帮助,但我想问别的。 对于每个标签,当我们按下“数字”按钮时,我们可以看到每个标签的使用次数。 我该如何检索该号码呢?

k-means聚类算法的实现

在我的程序中,我将k = 2用于k均值算法,即我只想要2个聚类。 我以一种非常简单直接的方式实现,仍然无法理解为什么我的程序进入无限循环。 任何人都可以指导我在哪里犯错误..? 为简单起见,我已经在程序代码本身中获取了输入。 这是我的代码: import java.io.*; import java.lang.*; class Kmean { public static void main(String args[]) { int N=9; int arr[]={2,4,10,12,3,20,30,11,25}; // initial data int i,m1,m2,a,b,n=0; boolean flag=true; float sum1=0,sum2=0; a=arr[0];b=arr[1]; m1=a; m2=b; int cluster1[]=new int[9],cluster2[]=new int[9]; for(i=0;i<9;i++) System.out.print(arr[i]+ "\t"); System.out.println(); do { n++; int k=0,j=0; for(i=0;i<9;i++) { if(Math.abs(arr[i]-m1)<=Math.abs(arr[i]-m2)) { cluster1[k]=arr[i]; k++; […]

什么是Java Data Mining,JDM?

我在看JDM。 这只是一个与其他工具进行实际数据挖掘的API吗? 或者这是一组包含实际数据挖掘算法的包吗?

信息增益计算文本文件?

我正在研究“使用信息增益,PCA和遗传算法进行文本分类”但是在对文档进行预处理 (词干,删除词,TFIDF)之后,混淆了如何提前获取信息增益部分。 我的文件包含单词和TFIDF值。 喜欢WORD – TFIDF VALUE 在一起(字) – 0.235(tfidf值) 来(字) – 0.2548(tfidf值) 当使用weka获取信息时(“ InfoGainAttributeEval.java ”),它需要.arff文件格式作为输入。 有没有将文本文件转换为.arff格式。 或任何其他方式预先形成除weka以外的信息收益? 是否还有其他开源用于计算文档的信息收益?

Raw Live Packets的NSL KDDfunction?

我想使用pcap和wincap提取原始数据。 由于我将对使用NSLKDD数据集训练的神经网络进行测试,我想知道如何从原始数据中获取这41个属性?或者即使不可能,也可以获得src_bytes,dst host_same_srv_rate等function,来自pcap的原始实时捕获数据包的diff_srv_rate,count,dst_host_serror_rate,wrong_fragment?

如何判断句子是否是一个问题(疑问句)?

是否有一个开源Java库/算法用于查找特定文本是否是一个问题? 我正在研究一个问题回答系统,需要分析用户输入的文本是否是一个问题。 我认为问题可以通过使用开源NLP库来解决,但它显然比简单的词性标记更复杂。 因此,如果有人可以通过使用现有的开源NLP库来告诉算法,那也不错。 如果您知道使用数据挖掘来解决此问题的库/工具包,请告诉我。 虽然很难获得足够的数据用于培训目的,但我将能够使用堆栈交换数据进行培训。

用于图像模式识别的java框架?

我正在寻找一个Java框架来帮助一些特定于图像的数据挖掘。 我们有一组历史图像,我想分类和分类。 我希望找到像weka http://www.cs.waikato.ac.nz/ml/weka/或Marsyas http://marsyas.sness.net这样的东西,但更具体的是筛选图像数据以找到模式。 有什么建议么?