Tag: 数据挖掘

从url中检索信息: 我想制作一个程序，将一些信息检索到一个url。例如，我从下面给出了url 如何检索“TAGS”选项卡下方的所有单词，如 Black Library幻想Thanquol＆Boneripper Thanquol和Bone Ripper Warhammer？我正在考虑使用java，并设计一个数据挖掘包装器，但我不知道如何启动。有人能给我一些建议吗？编辑：你给了我很好的帮助，但我想问别的。对于每个标签，当我们按下“数字”按钮时，我们可以看到每个标签的使用次数。我该如何检索该号码呢？

k-means聚类算法的实现: 在我的程序中，我将k = 2用于k均值算法，即我只想要2个聚类。我以一种非常简单直接的方式实现，仍然无法理解为什么我的程序进入无限循环。任何人都可以指导我在哪里犯错误..？为简单起见，我已经在程序代码本身中获取了输入。这是我的代码： import java.io.*; import java.lang.*; class Kmean { public static void main(String args[]) { int N=9; int arr[]={2,4,10,12,3,20,30,11,25}; // initial data int i,m1,m2,a,b,n=0; boolean flag=true; float sum1=0,sum2=0; a=arr[0];b=arr[1]; m1=a; m2=b; int cluster1[]=new int[9],cluster2[]=new int[9]; for(i=0;i<9;i++) System.out.print(arr[i]+ "\t"); System.out.println(); do { n++; int k=0,j=0; for(i=0;i<9;i++) { if(Math.abs(arr[i]-m1)<=Math.abs(arr[i]-m2)) { cluster1[k]=arr[i]; k++; […]

什么是Java Data Mining，JDM？: 我在看JDM。这只是一个与其他工具进行实际数据挖掘的API吗？或者这是一组包含实际数据挖掘算法的包吗？

信息增益计算文本文件？: 我正在研究“使用信息增益，PCA和遗传算法进行文本分类”但是在对文档进行预处理（词干，删除词，TFIDF）之后，混淆了如何提前获取信息增益部分。我的文件包含单词和TFIDF值。喜欢WORD – TFIDF VALUE 在一起（字） – 0.235（tfidf值）来（字） – 0.2548（tfidf值）当使用weka获取信息时（“ InfoGainAttributeEval.java ”），它需要.arff文件格式作为输入。有没有将文本文件转换为.arff格式。或任何其他方式预先形成除weka以外的信息收益？是否还有其他开源用于计算文档的信息收益？

Raw Live Packets的NSL KDDfunction？: 我想使用pcap和wincap提取原始数据。由于我将对使用NSLKDD数据集训练的神经网络进行测试，我想知道如何从原始数据中获取这41个属性？或者即使不可能，也可以获得src_bytes，dst host_same_srv_rate等function，来自pcap的原始实时捕获数据包的diff_srv_rate，count，dst_host_serror_rate，wrong_fragment？

如何判断句子是否是一个问题（疑问句）？: 是否有一个开源Java库/算法用于查找特定文本是否是一个问题？我正在研究一个问题回答系统，需要分析用户输入的文本是否是一个问题。我认为问题可以通过使用开源NLP库来解决，但它显然比简单的词性标记更复杂。因此，如果有人可以通过使用现有的开源NLP库来告诉算法，那也不错。如果您知道使用数据挖掘来解决此问题的库/工具包，请告诉我。虽然很难获得足够的数据用于培训目的，但我将能够使用堆栈交换数据进行培训。

用于图像模式识别的java框架？: 我正在寻找一个Java框架来帮助一些特定于图像的数据挖掘。我们有一组历史图像，我想分类和分类。我希望找到像weka http://www.cs.waikato.ac.nz/ml/weka/或Marsyas http://marsyas.sness.net这样的东西，但更具体的是筛选图像数据以找到模式。有什么建议么？