删除列表中的重复项

我如何检查一个列表是否有任何重复，并返回一个没有重复的新列表?

当前回答

您可以使用以下函数:

def rem_dupes(dup_list): 
    yooneeks = [] 
    for elem in dup_list: 
        if elem not in yooneeks: 
            yooneeks.append(elem) 
    return yooneeks

例子:

my_list = ['this','is','a','list','with','dupicates','in', 'the', 'list']

用法:

rem_dupes(my_list)

[‘这个’,‘是’,‘“,“列表”,“与”,“dupicates”,“在”,“的”)

2018-10-23 18:57:27

其他回答

def remove_duplicates(A):
   [A.pop(count) for count,elem in enumerate(A) if A.count(elem)!=1]
   return A

用于删除重复项的列表推导

2017-08-26 23:23:42

这个人关心的是没有太多麻烦的订单(OrderdDict & others)。可能不是最python化的方式，也不是最短的方式，但却达到了目的:

def remove_duplicates(item_list):
    ''' Removes duplicate items from a list '''
    singles_list = []
    for element in item_list:
        if element not in singles_list:
            singles_list.append(element)
    return singles_list

2014-09-02 11:37:54

也有使用Pandas和Numpy的解决方案。它们都返回numpy数组，所以如果你想要一个列表，你必须使用.tolist()函数。

t=['a','a','b','b','b','c','c','c']
t2= ['c','c','b','b','b','a','a','a']

熊猫的解决方案

唯一使用Pandas函数():

import pandas as pd
pd.unique(t).tolist()
>>>['a','b','c']
pd.unique(t2).tolist()
>>>['c','b','a']

Numpy解决方案

使用numpy函数unique()。

import numpy as np
np.unique(t).tolist()
>>>['a','b','c']
np.unique(t2).tolist()
>>>['a','b','c']

注意，numpy.unique()也对值进行排序。所以列表t2是有序返回的。如果你想保留顺序，可以这样回答:

_, idx = np.unique(t2, return_index=True)
t2[np.sort(idx)].tolist()
>>>['c','b','a']

与其他解决方案相比，该解决方案并不那么优雅，但是，与pandas.unique()相比，numpy.unique()还允许您检查嵌套数组在选定的轴上是否唯一。

2014-07-03 12:45:51

我用纯python函数做到了这一点。当您的项目值是JSON时，这是有效的。

[i for n, i in enumerate(items) if i not in items[n + 1 :]]

2020-05-15 10:01:00

这里有很多答案使用set(..)(考虑到元素是可哈希的，这是快速的)或list(它的缺点是它会导致O(n2)算法。

我建议的函数是一个混合的函数:我们使用set(..)来表示可哈希的项，使用list(..)来表示不可哈希的项。此外，它被实现为一个生成器，例如，我们可以限制项目的数量，或做一些额外的过滤。

最后，我们还可以使用一个key参数来指定元素应以何种方式惟一。例如，如果我们想过滤一个字符串列表，这样输出中的每个字符串都有不同的长度，我们可以使用这个。

def uniq(iterable, key=lambda x: x):
    seens = set()
    seenl = []
    for item in iterable:
        k = key(item)
        try:
            seen = k in seens
        except TypeError:
            seen = k in seenl
        if not seen:
            yield item
            try:
                seens.add(k)
            except TypeError:
                seenl.append(k)

我们现在可以这样使用:

>>> list(uniq(["apple", "pear", "banana", "lemon"], len))
['apple', 'pear', 'banana']
>>> list(uniq(["apple", "pear", "lemon", "banana"], len))
['apple', 'pear', 'banana']
>>> list(uniq(["apple", "pear", {}, "lemon", [], "banana"], len))
['apple', 'pear', {}, 'banana']
>>> list(uniq(["apple", "pear", {}, "lemon", [], "banana"]))
['apple', 'pear', {}, 'lemon', [], 'banana']
>>> list(uniq(["apple", "pear", {}, "lemon", {}, "banana"]))
['apple', 'pear', {}, 'lemon', 'banana']

因此，它是一个唯一性过滤器，可以在任何可迭代对象上工作并过滤出唯一性对象，而不管这些唯一性对象是否可哈希。

它做了一个假设:如果一个对象是可哈希的，而另一个对象不是，这两个对象永远不相等。严格地说，这是可能发生的，尽管它是非常罕见的。

2017-12-19 11:10:34

删除列表中的重复项

推荐文章

最新文章

标签