Java Lucene NGramTokenizer

我正在尝试将字符串标记为ngrams。奇怪的是，在NGramTokenizer的文档中，我没有看到一个方法会返回被标记化的单个ngrams。实际上我只在NGramTokenizer类中看到两个返回String Objects的方法。

这是我的代码：

Reader reader = new StringReader("This is a test string"); NGramTokenizer gramTokenizer = new NGramTokenizer(reader, 1, 3);

被标记化的ngrams在哪里？
如何在字符串/单词中获得输出？

我希望我的输出如下：这，是，a，测试，字符串，这是，是一个测试，测试字符串，这是一个测试，一个测试字符串。

我不认为你会找到你想找到返回String的方法。你需要处理属性。

应该是这样的：

 Reader reader = new StringReader("This is a test string"); NGramTokenizer gramTokenizer = new NGramTokenizer(reader, 1, 3); CharTermAttribute charTermAttribute = gramTokenizer.addAttribute(CharTermAttribute.class); gramTokenizer.reset(); while (gramTokenizer.incrementToken()) { String token = charTermAttribute.toString(); //Do something } gramTokenizer.end(); gramTokenizer.close();

但是，如果需要在那之后重新使用，请务必重置（）Tokenizer。

每个评论标记字组的分组，而不是字符：

 Reader reader = new StringReader("This is a test string"); TokenStream tokenizer = new StandardTokenizer(Version.LUCENE_36, reader); tokenizer = new ShingleFilter(tokenizer, 1, 3); CharTermAttribute charTermAttribute = tokenizer.addAttribute(CharTermAttribute.class); while (tokenizer.incrementToken()) { String token = charTermAttribute.toString(); //Do something }

对于最新版本的Lucene（4.2.1），这是一个干净的代码。在执行此代码之前，您必须导入2个jar文件：

Lucene的核心 – 4.2.1.jar
Lucene的-analuzers-共4.2.1.jar

在http://www.apache.org/dyn/closer.cgi/lucene/java/4.2.1上找到这些文件

 //LUCENE 4.2.1 Reader reader = new StringReader("This is a test string"); NGramTokenizer gramTokenizer = new NGramTokenizer(reader, 1, 3); CharTermAttribute charTermAttribute = gramTokenizer.addAttribute(CharTermAttribute.class); while (gramTokenizer.incrementToken()) { String token = charTermAttribute.toString(); System.out.println(token); }

在没有创建测试程序的情况下，我猜想incrementToken（）会返回下一个将成为ngrams之一的标记。

例如，使用字符串’abc d’的ngram长度为1-3，NGramTokenizer可以返回：

 a ab abc b bc bcd c cd d

其中’a’，’a b’等是由此产生的ngrams。

[编辑]

您可能还想查看在没有索引的情况下查询lucene令牌，因为它讨论了偷看令牌流。

包装ngramalgoimpl; import java.util。*;

公共课ngr {

 public static List n_grams(int n, String str) { List n_grams = new ArrayList(); String[] words = str.split(" "); for (int i = 0; i < words.length - n + 1; i++) n_grams.add(concatination(words, i, i+n)); return n_grams; } /*stringBuilder is used to cancatinate mutable sequence of characters*/ public static String concatination(String[] words, int start, int end) { StringBuilder sb = new StringBuilder(); for (int i = start; i < end; i++) sb.append((i > start ? " " : "") + words[i]); return sb.toString(); } public static void main(String[] args) { for (int n = 1; n <= 3; n++) { for (String ngram : n_grams(n, "This is my car.")) System.out.println(ngram); System.out.println(); } }

}

Java Lucene NGramTokenizer

半透明光标

如何用JAXB编组注释为@XmlAttachmentRef的DataHandler？

ASCII到HTML实体在Java中转义

使用Jasper和.xlsx的内容消息不可读

如何一般地比较整个java bean？

如何从文本文件中读取数据并将其中的一些数据保存到数组中

是否有适用于Windows Mobile的JAVA FX 2.0+运行时

如何在使用vararg和不使用vararg的方法之间消除Scala中的歧义

Java 8接口默认方法似乎没有声明属性

重用Java方法的最佳方法