Tag: 文本处理

计算不同单词的数量: 我试图使用Java计算文本中不同单词的数量。这个词可以是unigram，bigram或trigram名词。这三个已经通过使用斯坦福POS标记器找到了，但是我无法计算频率大于等于一，二，三，四和五的单词及其计数。

解析文档时的Apache Tika和字符限制: 可以请任何人帮我解决一下吗？它可以这样做 Tika tika = new Tika(); tika.setMaxStringLength(10*1024*1024); 但如果你不直接使用Tika，就像这样： ContentHandler textHandler = new BodyContentHandler(); Metadata metadata = new Metadata(); Parser parser = new AutoDetectParser(); ParseContext ps = new ParseContext(); for (InputStream is : getInputStreams()) { parser.parse(is, textHandler, metadata, ps); is.close(); System.out.println(“Title: ” + metadata.get(“title”)); System.out.println(“Author: ” + metadata.get(“Author”)); } 无法设置它，因为您不与WriteOutContentHandler交互。顺便说一下，它默认设置为-1 ，这意味着没有限制。但最终的限制是100000个字符。 /** * […]

用于句子相似性检测的BLEU分数实现: 我需要计算BLEU分数，以确定两个句子是否相似。我读过一些文章，主要是关于测量机器翻译准确度的BLEU分数。但是我需要一个BLEU分数来找出句子之间的相似性。同一种语言[英语]。（即）（两个句子都是英文）。感谢期待。

使用Java删除文件的最后一行: 我有一个.txt文件，我想用Java处理它。我想删除它的最后一行。我需要有关如何实现这一点的想法，而无需将整个内容复制到另一个文件中并忽略最后一行。有什么建议么？

Java文本分类问题: 我有一组Books对象，类Book定义如下： Class Book{ String title; ArrayList taglist; } 标题是书的标题，例如： Javascript for dummies 。和taglist是我们示例的标签列表： Javascript，jquery，“web dev”，.. 正如我所说，有一套书谈论不同的东西：IT，生物，历史……每本书都有一个标题和一组描述它的标签。我必须按主题将这些书自动分类为分开的集合，例如： IT书籍： Java for dummies Javascript for dummies 在30天内学习闪光灯 C ++编程历史书：世界大战美国在1960年马丁路德金的一生生物学书籍： …. 你们知道一种分类算法/方法来申请这类问题吗？解决方案是使用外部API来定义文本的类别，但问题在于书籍使用不同的语言：法语，西class牙语，英语。

如何判断句子是否是一个问题（疑问句）？: 是否有一个开源Java库/算法用于查找特定文本是否是一个问题？我正在研究一个问题回答系统，需要分析用户输入的文本是否是一个问题。我认为问题可以通过使用开源NLP库来解决，但它显然比简单的词性标记更复杂。因此，如果有人可以通过使用现有的开源NLP库来告诉算法，那也不错。如果您知道使用数据挖掘来解决此问题的库/工具包，请告诉我。虽然很难获得足够的数据用于培训目的，但我将能够使用堆栈交换数据进行培训。