Tag: 信息检索

从url中检索信息

我想制作一个程序,将一些信息检索到一个url。 例如,我从下面给出了url 如何检索“TAGS”选项卡下方的所有单词,如 Black Library幻想Thanquol&Boneripper Thanquol和Bone Ripper Warhammer? 我正在考虑使用java,并设计一个数据挖掘包装器,但我不知道如何启动。 有人能给我一些建议吗? 编辑:你给了我很好的帮助,但我想问别的。 对于每个标签,当我们按下“数字”按钮时,我们可以看到每个标签的使用次数。 我该如何检索该号码呢?

Java开源文本挖掘框架

我想知道什么是最好的基于Java的开源文本挖掘框架,使用botg机器学习和字典方法。 我正在使用Mallet,但没有那么多文档,我不知道它是否符合我的所有要求。

信息增益计算文本文件?

我正在研究“使用信息增益,PCA和遗传算法进行文本分类”但是在对文档进行预处理 (词干,删除词,TFIDF)之后,混淆了如何提前获取信息增益部分。 我的文件包含单词和TFIDF值。 喜欢WORD – TFIDF VALUE 在一起(字) – 0.235(tfidf值) 来(字) – 0.2548(tfidf值) 当使用weka获取信息时(“ InfoGainAttributeEval.java ”),它需要.arff文件格式作为输入。 有没有将文本文件转换为.arff格式。 或任何其他方式预先形成除weka以外的信息收益? 是否还有其他开源用于计算文档的信息收益?

有没有人知道如何使用带有Lucene 3.6的Wordnet扩展查询?

我在org.apache.lucene.analysis.synonym中找到了WordnetSynonymParser类,但是在API和谷歌中都没有使用它的例子。 有人有经验吗? 谢谢! 编辑 :我知道曾经有类SynExpand ,但是版本3.6它消失了…… 我试试: try { FileReader rulesReader = new FileReader(“wn/wn_s.pl”); SynonymMap.Builder parser = null; parser = new WordnetSynonymParser(true, true, analyzer); ((WordnetSynonymParser)parser).add(rulesReader); synonymMap = parser.build(); } catch (Exception e) { e.printStackTrace(); System.exit(1); } 但是我收到以下错误: java.text.ParseException: Invalid synonym rule at line 109 at org.apache.lucene.analysis.synonym.WordnetSynonymParser.add(WordnetSynonymParser.java:75) at pirServer.QueryClassifier.(QueryClassifier.java:77) at pirServer.PIRServer.main(PIRServer.java:32) Caused by: java.lang.IllegalArgumentException: term: course […]

用Lucene提升新文档

Lucene是否提供了一种提升新文档的方法? 例如,假设Lucene文档包含日期字段。 是否有可能在没有用户改变她的查询的情况下,以更高的分数呈现最新的文档? 我不想采用粗略的“按日期排序”解决方案,因为它将完全取消评分算法。