好的Python模块模糊字符串比较?

我正在寻找一个Python模块，可以做简单的模糊字符串比较。具体来说，我想知道字符串相似程度的百分比。我知道这是潜在的主观，所以我希望找到一个库，可以做位置比较以及最长的相似字符串匹配，等等。

基本上，我希望找到一些足够简单的东西，可以产生单个百分比，同时仍然可以配置，以便我可以指定要进行哪种类型的比较。

当前回答

Difflib可以做到。

文档中的例子:

>>> get_close_matches('appel', ['ape', 'apple', 'peach', 'puppy'])
['apple', 'ape']
>>> import keyword
>>> get_close_matches('wheel', keyword.kwlist)
['while']
>>> get_close_matches('apple', keyword.kwlist)
[]
>>> get_close_matches('accept', keyword.kwlist)
['except']

来看看。它还有其他功能，可以帮助您定制一些东西。

2009-03-25 16:34:09

其他回答

Jellyfish是一个Python模块，支持许多字符串比较指标，包括语音匹配。与Jellyfish的实现相比，纯Python实现的Levenstein编辑距离非常慢。

使用示例:

import jellyfish

>>> jellyfish.levenshtein_distance('jellyfish', 'smellyfish')
2 
>>> jellyfish.jaro_distance('jellyfish', 'smellyfish')
0.89629629629629637
>>> jellyfish.damerau_levenshtein_distance('jellyfish', 'jellyfihs')
1
>>> jellyfish.metaphone('Jellyfish')
'JLFX'
>>> jellyfish.soundex('Jellyfish')
'J412'
>>> jellyfish.nysiis('Jellyfish')
'JALYF'
>>> jellyfish.match_rating_codex('Jellyfish')
'JLLFSH'`

2011-12-03 19:20:23

我一直在用座位极客的Fuzzy Wuzzy，而且非常成功。

https://github.com/seatgeek/fuzzywuzzy

具体来说，令牌集比率函数…

他们还写了一篇关于模糊字符串匹配过程的文章:

http://seatgeek.com/blog/dev/fuzzywuzzy-fuzzy-string-matching-in-python

2013-08-14 03:07:38

下面是一个python脚本，用于计算两个单词的最长公共子字符串(可能需要调整才能用于多词短语):

def lcs(word1, word2):

    w1 = set(word1[i:j] for i in range(0, len(word1))
             for j in range(1, len(word1) + 1))

    w2 = set(word2[i:j] for i in range(0, len(word2))
             for j in range(1, len(word2) + 1))

    common_subs = w1.intersection(w2)

    sorted_cmn_subs = sorted([
        (len(str), str) for str in list(common_subs)
        ])

    return sorted_cmn_subs.pop()[1]

2009-04-20 16:32:11

看一下Fuzzy模块。它具有基于soundex、NYSIIS和双变音位的快速(用C编写)算法。

好的介绍可以在http://www.informit.com/articles/article.aspx?p=1848528上找到

2012-04-03 12:12:54

正如nosklo所说，使用Python标准库中的difflib模块。

difflib模块可以使用SequenceMatcher()对象的ratio()方法返回序列相似性的度量值。相似度作为0.0到1.0范围内的浮点数返回。

>>> import difflib

>>> difflib.SequenceMatcher(None, 'abcde', 'abcde').ratio()
1.0

>>> difflib.SequenceMatcher(None, 'abcde', 'zbcde').ratio()
0.80000000000000004

>>> difflib.SequenceMatcher(None, 'abcde', 'zyzzy').ratio()
0.0

2010-03-10 17:03:57

好的Python模块模糊字符串比较?

推荐文章

最新文章

标签