删除列表中的重复项

我如何检查一个列表是否有任何重复，并返回一个没有重复的新列表?

当前回答

这里有很多答案使用set(..)(考虑到元素是可哈希的，这是快速的)或list(它的缺点是它会导致O(n2)算法。

我建议的函数是一个混合的函数:我们使用set(..)来表示可哈希的项，使用list(..)来表示不可哈希的项。此外，它被实现为一个生成器，例如，我们可以限制项目的数量，或做一些额外的过滤。

最后，我们还可以使用一个key参数来指定元素应以何种方式惟一。例如，如果我们想过滤一个字符串列表，这样输出中的每个字符串都有不同的长度，我们可以使用这个。

def uniq(iterable, key=lambda x: x):
    seens = set()
    seenl = []
    for item in iterable:
        k = key(item)
        try:
            seen = k in seens
        except TypeError:
            seen = k in seenl
        if not seen:
            yield item
            try:
                seens.add(k)
            except TypeError:
                seenl.append(k)

我们现在可以这样使用:

>>> list(uniq(["apple", "pear", "banana", "lemon"], len))
['apple', 'pear', 'banana']
>>> list(uniq(["apple", "pear", "lemon", "banana"], len))
['apple', 'pear', 'banana']
>>> list(uniq(["apple", "pear", {}, "lemon", [], "banana"], len))
['apple', 'pear', {}, 'banana']
>>> list(uniq(["apple", "pear", {}, "lemon", [], "banana"]))
['apple', 'pear', {}, 'lemon', [], 'banana']
>>> list(uniq(["apple", "pear", {}, "lemon", {}, "banana"]))
['apple', 'pear', {}, 'lemon', 'banana']

因此，它是一个唯一性过滤器，可以在任何可迭代对象上工作并过滤出唯一性对象，而不管这些唯一性对象是否可哈希。

它做了一个假设:如果一个对象是可哈希的，而另一个对象不是，这两个对象永远不相等。严格地说，这是可能发生的，尽管它是非常罕见的。

2017-12-19 11:10:34

其他回答

我用纯python函数做到了这一点。当您的项目值是JSON时，这是有效的。

[i for n, i in enumerate(items) if i not in items[n + 1 :]]

2020-05-15 10:01:00

从列表中删除重复项的最佳方法是使用set()函数，该函数在python中可用，再次将该集合转换为列表

In [2]: some_list = ['a','a','v','v','v','c','c','d']
In [3]: list(set(some_list))
Out[3]: ['a', 'c', 'd', 'v']

2017-08-17 07:39:25

它需要安装一个第三方模块，但包iteration_utilities包含一个unique_everseen1函数，可以删除所有重复的同时保留顺序:

>>> from iteration_utilities import unique_everseen

>>> list(unique_everseen(['a', 'b', 'c', 'd'] + ['a', 'c', 'd']))
['a', 'b', 'c', 'd']

如果你想避免列表添加操作的开销，你可以使用itertools。链:

>>> from itertools import chain
>>> list(unique_everseen(chain(['a', 'b', 'c', 'd'], ['a', 'c', 'd'])))
['a', 'b', 'c', 'd']

unique_everseen也适用于列表中有不可哈希项(例如列表)的情况:

>>> from iteration_utilities import unique_everseen
>>> list(unique_everseen([['a'], ['b'], 'c', 'd'] + ['a', 'c', 'd']))
[['a'], ['b'], 'c', 'd', 'a']

然而，这将比项目是可哈希的(多)慢。

1披露:我是iteration_utilities-library的作者。

2016-11-09 01:56:22

我的列表中有一个字典，所以我不能使用上面的方法。我得到了错误:

TypeError: unhashable type:

如果你关心顺序和/或某些项是不可散列的。那么你可能会发现这个很有用:

def make_unique(original_list):
    unique_list = []
    [unique_list.append(obj) for obj in original_list if obj not in unique_list]
    return unique_list

有些人可能认为带副作用的列表理解不是一个好的解决方案。这里有一个替代方案:

def make_unique(original_list):
    unique_list = []
    map(lambda x: unique_list.append(x) if (x not in unique_list) else False, original_list)
    return unique_list

2014-06-06 15:25:56

Python 3中非常简单的方法:

>>> n = [1, 2, 3, 4, 1, 1]
>>> n
[1, 2, 3, 4, 1, 1]
>>> m = sorted(list(set(n)))
>>> m
[1, 2, 3, 4]

2018-06-20 12:45:17

删除列表中的重复项

推荐文章

最新文章

标签