Tag: 集理论

有效的算法来比较数字集之间的相似性?

我有很多套数字。 每组包含10个数字,我需要删除与任何其他集合具有5个或更多数字(无序)匹配的所有集合。 例如: set 1: {12,14,222,998,1,89,43,22,7654,23} set 2: {44,23,64,76,987,3,2345,443,431,88} set 3: {998,22,7654,345,112,32,89,9842,31,23} 鉴于集合1以上的3组10个数字和集合3将被认为是重复的,因为它们具有5个匹配的数字。 所以,在这种情况下,我会删除第3组(因为它被认为类似于第1组)。 我有超过10000套比较,我想非常有效地做到这一点。 我一直在讨论这个问题,我只是想不出一种有效的方法来进行这种比较(在一次通过中这样做会很棒)。 有任何想法吗? 谢谢! 麦克风