Tag: levenshtein 距离

文本相似度算法

我有两个字幕文件。 我需要一个函数来告诉它们是代表相同的文本还是相似的文本 有时只有一个文件中有“风正在吹……音乐在播放”这样的评论。 但80%的内容都是一样的。 该函数必须返回TRUE(文件表示相同的文本)。 有时会出现像1这样的拼写错误,而不是l(1-L),就像这里一样: 她只有行李 。 当然,这意味着函数必须返回TRUE。 我的意见: 该函数应返回文本相似度的百分比 – 同意 “所有人都很开心”和“所有人都不高兴” – 这里被认为是拼写错误,因此被视为同一文本。 确切地说,函数返回的百分比将更低,但足够高以表示短语是相似的 请考虑是否要在整个文件或搜索字符串上应用Levenshtein – 不确定Levenshtein,但算法必须作为一个整体应用于文件。 不过,这将是一个很长的字符串。