Java中的字符串搜索算法

我正在使用大量数据进行字符串匹配。

编辑:我正在匹配一个大列表中的单词与一些本体文本文件。 我从本体中获取每个文件,并搜索每个文件行的第三个字符串与列表中的任何单词之间的匹配。

我在监督这样一个事实上犯了一个错误:我需要做的不是纯匹配(结果很差),但我需要一些更宽松的匹配函数,当字符串包含在另一个字符串中时,它也会返回结果。

我用Radix Trie做到了这一点; 这是非常快,工作得很好,但现在我猜我的工作没用,因为trie只返回完全匹配。 :/

  • 执行此操作的算法类型是字符串搜索算法?
  • 有人可以建议一些他有经验的Java实现吗?

算法应该很快,但不是最重要的,会与速度和复杂性相提并论。

我非常感谢所有建议/示例/解释/链接!

谢谢!

您可能会发现后缀树很有用(它们在概念上类似于Tries)。

每个字符串,前缀为^并以$结尾,并创建所有附加字符串的后缀树。 空间使用将是O(n),并且可能比你对trie的情况更糟糕。

如果您现在需要搜索字符串s,您可以轻松地在O(| s |)时间内完成,就像trie一样,您获得的匹配将是一个子字符串匹配(基本上,您将匹配某些字符串的某些后缀) )。

对不起,我没有方便的Java实现参考。

找到了一个有用的stackoverflow答案: Generalized Suffix Tree Java Implementation

其中包括: http : //illya-keeplearning.blogspot.com/2009/04/suffix-trees-java-ukkonens-algorithm.html

反过来又有:源代码: http : //illya.yolasite.com/resources/suffix-tree.zip

正则表达式绝对是您最好的选择。 编写它们可能有点乱,但它们是唯一的方法,你可以在没有难以理解的if / else或switch语句系列的情况下进行更松散的匹配。

另外,它们比替代品快得多。

我不完全确定我是否正确理解了这个问题,但这听起来像正则表达式会起作用

http://java.sun.com/developer/technicalArticles/releases/1.4regex/

为什么不在java中使用indexOf方法。 根据内存的可用性,阅读内容。 做一个indexOf并获得你需要的所有行。 加载下一组内容。

如果从文件中读取使用nio流。

可能是想法不好,但我相信java。 它将使用最好的算法。

如果你使用正则表达式会更好。