找出两个字符串之间的相似度度量

如何在Python中获得一个字符串与另一个字符串相似的概率?

我想要得到一个十进制值，比如0.9(意思是90%)等等。最好是标准的Python和库。

e.g.

similar("Apple","Appel") #would have a high prob.

similar("Apple","Mango") #would have a lower prob.

当前回答

包装距离包括Levenshtein距离:

import distance
distance.levenshtein("lenvestein", "levenshtein")
# 3

2017-04-10 22:02:30

其他回答

我想你们可能在寻找一种描述字符串之间距离的算法。这里有一些你可以参考的:

汉明距离 Levenshtein距离 Damerau-Levenshtein距离 Jaro-Winkler距离

2013-06-30 08:45:51

你可以创建这样一个函数:

def similar(w1, w2):
    w1 = w1 + ' ' * (len(w2) - len(w1))
    w2 = w2 + ' ' * (len(w1) - len(w2))
    return sum(1 if i == j else 0 for i, j in zip(w1, w2)) / float(len(w1))

2013-06-30 07:41:14

包装距离包括Levenshtein距离:

import distance
distance.levenshtein("lenvestein", "levenshtein")
# 3

2017-04-10 22:02:30

你可以在这个链接下找到大多数文本相似度方法及其计算方法:https://github.com/luozhouyang/python-string-similarity#python-string-similarity 这里有一些例子;

归一化，度量，相似度和距离 (归一化)相似度和距离距离度量基于相似度和距离的带状(n-gram) Levenshtein 规范化Levenshtein 加权Levenshtein Damerau-Levenshtein 最佳字符串对齐 Jaro-Winkler 最长公共子序列度量最长公共子序列语法基于瓦(n-gram)的算法 Q-Gram 余弦相似度 Jaccard指数 Sorensen-Dice系数重叠系数(即Szymkiewicz-Simpson)

2020-04-09 14:38:34

出于我的目的，我有自己的quick_ratio()，它比difflib SequenceMatcher的quick_ratio()快2倍，同时提供类似的结果。A和b是字符串:

    score = 0
    for letters in enumerate(a):
        score = score + b.count(letters[1])

2023-01-06 11:52:21

找出两个字符串之间的相似度度量

推荐文章

最新文章

标签