Tag: levenshtein 距离

文本相似度算法: 我有两个字幕文件。我需要一个函数来告诉它们是代表相同的文本还是相似的文本有时只有一个文件中有“风正在吹……音乐在播放”这样的评论。但80％的内容都是一样的。该函数必须返回TRUE（文件表示相同的文本）。有时会出现像1这样的拼写错误，而不是l（1-L），就像这里一样：她只有行李。当然，这意味着函数必须返回TRUE。我的意见：该函数应返回文本相似度的百分比 – 同意 “所有人都很开心”和“所有人都不高兴” – 这里被认为是拼写错误，因此被视为同一文本。确切地说，函数返回的百分比将更低，但足够高以表示短语是相似的请考虑是否要在整个文件或搜索字符串上应用Levenshtein – 不确定Levenshtein，但算法必须作为一个整体应用于文件。不过，这将是一个很长的字符串。

Interesting Posts

为什么Java lamdareflection性能会变差

不从服务器读取文本

正确使用Apache Commons配置

Java堆中的空格/代数之间的比率是否恒定？

SAX解析器可以在Java中使用XPath吗？

Hibernate和JPA有什么区别？

在JBoss 7.1上部署EJB

永远不会调用Hibernate @PostLoad

是否有适用于Java的Harel Statechart DSL工具？

如何在android中逐字搜索

正则表达式解析日志文件并查找堆栈跟踪

文件系统上的哪个地方是我的Java类加载的？

Android：从http获取文件并存储在SDCard中

具有Excel等条件格式的Jtable

模型类在Hibernate中运行多个查询..！