Tag: 文本处理

计算不同单词的数量

我试图使用Java计算文本中不同单词的数量。 这个词可以是unigram,bigram或trigram名词 。 这三个已经通过使用斯坦福POS标记器找到了,但是我无法计算频率大于等于一,二,三,四和五的单词及其计数。

解析文档时的Apache Tika和字符限制

可以请任何人帮我解决一下吗? 它可以这样做 Tika tika = new Tika(); tika.setMaxStringLength(10*1024*1024); 但如果你不直接使用Tika,就像这样: ContentHandler textHandler = new BodyContentHandler(); Metadata metadata = new Metadata(); Parser parser = new AutoDetectParser(); ParseContext ps = new ParseContext(); for (InputStream is : getInputStreams()) { parser.parse(is, textHandler, metadata, ps); is.close(); System.out.println(“Title: ” + metadata.get(“title”)); System.out.println(“Author: ” + metadata.get(“Author”)); } 无法设置它,因为您不与WriteOutContentHandler交互。 顺便说一下,它默认设置为-1 ,这意味着没有限制。 但最终的限制是100000个字符。 /** * […]

用于句子相似性检测的BLEU分数实现

我需要计算BLEU分数,以确定两个句子是否相似。我读过一些文章,主要是关于测量机器翻译准确度的BLEU分数。但是我需要一个BLEU分数来找出句子之间的相似性。同一种语言[英语]。(即)(两个句子都是英文)。感谢期待。

使用Java删除文件的最后一行

我有一个.txt文件,我想用Java处理它。 我想删除它的最后一行。 我需要有关如何实现这一点的想法,而无需将整个内容复制到另一个文件中并忽略最后一行。 有什么建议么?

Java文本分类问题

我有一组Books对象,类Book定义如下: Class Book{ String title; ArrayList taglist; } 标题是书的标题,例如: Javascript for dummies 。 和taglist是我们示例的标签列表: Javascript,jquery,“web dev”,.. 正如我所说,有一套书谈论不同的东西:IT,生物,历史……每本书都有一个标题和一组描述它的标签。 我必须按主题将这些书自动分类为分开的集合,例如: IT书籍: Java for dummies Javascript for dummies 在30天内学习闪光灯 C ++编程 历史书: 世界大战 美国在1960年 马丁路德金的一生 生物学书籍: …. 你们知道一种分类算法/方法来申请这类问题吗? 解决方案是使用外部API来定义文本的类别,但问题在于书籍使用不同的语言:法语,西class牙语,英语。

如何判断句子是否是一个问题(疑问句)?

是否有一个开源Java库/算法用于查找特定文本是否是一个问题? 我正在研究一个问题回答系统,需要分析用户输入的文本是否是一个问题。 我认为问题可以通过使用开源NLP库来解决,但它显然比简单的词性标记更复杂。 因此,如果有人可以通过使用现有的开源NLP库来告诉算法,那也不错。 如果您知道使用数据挖掘来解决此问题的库/工具包,请告诉我。 虽然很难获得足够的数据用于培训目的,但我将能够使用堆栈交换数据进行培训。