Tag: 信息检索

从url中检索信息: 我想制作一个程序，将一些信息检索到一个url。例如，我从下面给出了url 如何检索“TAGS”选项卡下方的所有单词，如 Black Library幻想Thanquol＆Boneripper Thanquol和Bone Ripper Warhammer？我正在考虑使用java，并设计一个数据挖掘包装器，但我不知道如何启动。有人能给我一些建议吗？编辑：你给了我很好的帮助，但我想问别的。对于每个标签，当我们按下“数字”按钮时，我们可以看到每个标签的使用次数。我该如何检索该号码呢？

Java开源文本挖掘框架: 我想知道什么是最好的基于Java的开源文本挖掘框架，使用botg机器学习和字典方法。我正在使用Mallet，但没有那么多文档，我不知道它是否符合我的所有要求。

信息增益计算文本文件？: 我正在研究“使用信息增益，PCA和遗传算法进行文本分类”但是在对文档进行预处理（词干，删除词，TFIDF）之后，混淆了如何提前获取信息增益部分。我的文件包含单词和TFIDF值。喜欢WORD – TFIDF VALUE 在一起（字） – 0.235（tfidf值）来（字） – 0.2548（tfidf值）当使用weka获取信息时（“ InfoGainAttributeEval.java ”），它需要.arff文件格式作为输入。有没有将文本文件转换为.arff格式。或任何其他方式预先形成除weka以外的信息收益？是否还有其他开源用于计算文档的信息收益？

有没有人知道如何使用带有Lucene 3.6的Wordnet扩展查询？: 我在org.apache.lucene.analysis.synonym中找到了WordnetSynonymParser类，但是在API和谷歌中都没有使用它的例子。有人有经验吗？谢谢！编辑：我知道曾经有类SynExpand ，但是版本3.6它消失了…… 我试试： try { FileReader rulesReader = new FileReader(“wn/wn_s.pl”); SynonymMap.Builder parser = null; parser = new WordnetSynonymParser(true, true, analyzer); ((WordnetSynonymParser)parser).add(rulesReader); synonymMap = parser.build(); } catch (Exception e) { e.printStackTrace(); System.exit(1); } 但是我收到以下错误： java.text.ParseException: Invalid synonym rule at line 109 at org.apache.lucene.analysis.synonym.WordnetSynonymParser.add(WordnetSynonymParser.java:75) at pirServer.QueryClassifier.(QueryClassifier.java:77) at pirServer.PIRServer.main(PIRServer.java:32) Caused by: java.lang.IllegalArgumentException: term: course […]