如何将列表分成大小相等的块？

如何将任意长度的列表拆分为大小相等的块？

请参阅如果数据结果将直接用于循环，并且不需要存储，则如何以块形式遍历列表。

对于字符串输入的同一问题，请参见每n个字符拆分字符串？。相同的技术通常适用，但也有一些变化。

当前回答

下面我有一个解决方案确实有效，但比这个解决方案更重要的是对其他方法的一些评论。首先，一个好的解决方案不应该要求一个循环按顺序遍历子迭代器。如果我跑

g = paged_iter(list(range(50)), 11))
i0 = next(g)
i1 = next(g)
list(i1)
list(i0)

最后一个命令的适当输出是

 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

not

[]

正如这里大多数基于itertools的解决方案所返回的那样。这不仅仅是关于按顺序访问迭代器的常见无聊限制。想象一个消费者试图清理输入不良的数据，该数据颠倒了5的块的适当顺序，即数据看起来像[B5，A5，D5，C5]，应该像[A5，B5，C5，D5]（其中A5只是五个元素，而不是子列表）。该使用者将查看分组函数的声明行为，并毫不犹豫地编写一个类似

i = 0
out = []
for it in paged_iter(data,5)
    if (i % 2 == 0):
         swapped = it
    else: 
         out += list(it)
         out += list(swapped)
    i = i + 1

如果您偷偷摸摸地假设子迭代器总是按顺序完全使用，那么这将产生神秘的错误结果。如果你想交错块中的元素，情况就更糟了。

其次，大量建议的解决方案隐含地依赖于迭代器具有确定性顺序的事实（例如，迭代器没有设置），尽管使用islice的一些解决方案可能还可以，但我对此感到担忧。

第三，itertools-grouper方法有效，但该方法依赖于zip_langest（或zip）函数的内部行为，而这些行为不是其发布行为的一部分。特别是，grouper函数只起作用，因为在zip_langest（i0…In）中，下一个函数总是按next（i0）、next（i 1）、……的顺序调用。。。在重新开始之前。当grouper传递同一迭代器对象的n个副本时，它依赖于此行为。

最后，虽然下面的解决方案可以得到改进，但如果您对上面的假设进行了批评，即子迭代器是按顺序访问的，并且在没有这个假设的情况下被完全阅读，则必须隐式（通过调用链）或显式（通过deques或其他数据结构）为每个子迭代程序存储元素。所以，不要浪费时间（就像我所做的那样），假设人们可以用一些巧妙的技巧来解决这个问题。

def paged_iter(iterat, n):
    itr = iter(iterat)
    deq = None
    try:
        while(True):
            deq = collections.deque(maxlen=n)
            for q in range(n):
                deq.append(next(itr))
            yield (i for i in deq)
    except StopIteration:
        yield (i for i in deq)

2017-01-11 09:18:53

其他回答

[AA[i:i+SS] for i in range(len(AA))[::SS]]

其中AA是数组，SS是块大小。例如：

>>> AA=range(10,21);SS=3
>>> [AA[i:i+SS] for i in range(len(AA))[::SS]]
[[10, 11, 12], [13, 14, 15], [16, 17, 18], [19, 20]]
# or [range(10, 13), range(13, 16), range(16, 19), range(19, 21)] in py3

要扩展py3中的范围，请执行以下操作

(py3) >>> [list(AA[i:i+SS]) for i in range(len(AA))[::SS]]
[[10, 11, 12], [13, 14, 15], [16, 17, 18], [19, 20]]

2015-12-16 21:42:56

def main():
  print(chunkify([1,2,3,4,5,6],2))

def chunkify(list, n):
  chunks = []
  for i in range(0, len(list), n):
    chunks.append(list[i:i+n])
  return chunks

main()

我认为这很简单，可以为您提供数组的一部分。

2020-04-14 16:18:52

toolz库具有如下分区函数：

from toolz.itertoolz.core import partition

list(partition(2, [1, 2, 3, 4]))
[(1, 2), (3, 4)]

2013-11-20 20:55:22

我很好奇不同方法的性能，这里是：

在Python 3.5.1上测试

import time
batch_size = 7
arr_len = 298937

#---------slice-------------

print("\r\nslice")
start = time.time()
arr = [i for i in range(0, arr_len)]
while True:
    if not arr:
        break

    tmp = arr[0:batch_size]
    arr = arr[batch_size:-1]
print(time.time() - start)

#-----------index-----------

print("\r\nindex")
arr = [i for i in range(0, arr_len)]
start = time.time()
for i in range(0, round(len(arr) / batch_size + 1)):
    tmp = arr[batch_size * i : batch_size * (i + 1)]
print(time.time() - start)

#----------batches 1------------

def batch(iterable, n=1):
    l = len(iterable)
    for ndx in range(0, l, n):
        yield iterable[ndx:min(ndx + n, l)]

print("\r\nbatches 1")
arr = [i for i in range(0, arr_len)]
start = time.time()
for x in batch(arr, batch_size):
    tmp = x
print(time.time() - start)

#----------batches 2------------

from itertools import islice, chain

def batch(iterable, size):
    sourceiter = iter(iterable)
    while True:
        batchiter = islice(sourceiter, size)
        yield chain([next(batchiter)], batchiter)


print("\r\nbatches 2")
arr = [i for i in range(0, arr_len)]
start = time.time()
for x in batch(arr, batch_size):
    tmp = x
print(time.time() - start)

#---------chunks-------------
def chunks(l, n):
    """Yield successive n-sized chunks from l."""
    for i in range(0, len(l), n):
        yield l[i:i + n]
print("\r\nchunks")
arr = [i for i in range(0, arr_len)]
start = time.time()
for x in chunks(arr, batch_size):
    tmp = x
print(time.time() - start)

#-----------grouper-----------

from itertools import zip_longest # for Python 3.x
#from six.moves import zip_longest # for both (uses the six compat library)

def grouper(iterable, n, padvalue=None):
    "grouper(3, 'abcdefg', 'x') --> ('a','b','c'), ('d','e','f'), ('g','x','x')"
    return zip_longest(*[iter(iterable)]*n, fillvalue=padvalue)

arr = [i for i in range(0, arr_len)]
print("\r\ngrouper")
start = time.time()
for x in grouper(arr, batch_size):
    tmp = x
print(time.time() - start)

结果：

slice
31.18285083770752

index
0.02184295654296875

batches 1
0.03503894805908203

batches 2
0.22681021690368652

chunks
0.019841909408569336

grouper
0.006506919860839844

2018-01-07 08:58:54

如何将列表分割成大小均匀的块？

对我来说，“大小均匀的块”意味着它们都是相同的长度，或者除非有这种选择，长度上的差异最小。例如，21个项目的5个篮子可能具有以下结果：

>>> import statistics
>>> statistics.variance([5,5,5,5,1]) 
3.2
>>> statistics.variance([5,4,4,4,4]) 
0.19999999999999998

更倾向于后一种结果的一个实际原因是：如果你使用这些函数来分配工作，你已经内置了一个可能比其他人完成得好的前景，因此当其他人继续努力工作时，它会无所事事。

此处对其他答案的批评

当我最初写这个答案时，没有一个其他答案是大小均匀的块——它们都会在最后留下一个小块，所以它们没有很好地平衡，并且长度的差异超过了必要的范围。

例如，当前顶部答案以：

[60, 61, 62, 63, 64, 65, 66, 67, 68, 69],
[70, 71, 72, 73, 74]]

其他如列表（grouper（3，range（7））和块（range（7，3））都返回：[（0，1，2），（3，4，5），（6，None，None）]。“无”只是填充，在我看来相当不雅。他们并没有将可迭代项平均分块。

为什么我们不能更好地划分这些呢？

循环解决方案

一个使用itertools.cycle的高级平衡解决方案，这就是我今天可能采用的方法。设置如下：

from itertools import cycle
items = range(10, 75)
number_of_baskets = 10

现在我们需要我们的列表来填充元素：

baskets = [[] for _ in range(number_of_baskets)]

最后，我们将要分配的元素与一个篮子循环压缩在一起，直到元素用完，从语义上讲，这正是我们想要的：

for element, basket in zip(items, cycle(baskets)):
    basket.append(element)

结果如下：

>>> from pprint import pprint
>>> pprint(baskets)
[[10, 20, 30, 40, 50, 60, 70],
 [11, 21, 31, 41, 51, 61, 71],
 [12, 22, 32, 42, 52, 62, 72],
 [13, 23, 33, 43, 53, 63, 73],
 [14, 24, 34, 44, 54, 64, 74],
 [15, 25, 35, 45, 55, 65],
 [16, 26, 36, 46, 56, 66],
 [17, 27, 37, 47, 57, 67],
 [18, 28, 38, 48, 58, 68],
 [19, 29, 39, 49, 59, 69]]

为了使这个解决方案产品化，我们编写了一个函数，并提供了类型注释：

from itertools import cycle
from typing import List, Any

def cycle_baskets(items: List[Any], maxbaskets: int) -> List[List[Any]]:
    baskets = [[] for _ in range(min(maxbaskets, len(items)))]
    for item, basket in zip(items, cycle(baskets)):
        basket.append(item)
    return baskets

在上面，我们列出了物品清单，以及篮子的最大数量。我们创建一个空列表列表，在其中以循环方式追加每个元素。

片

另一个优雅的解决方案是使用切片，特别是不太常用的切片步骤参数。即。：

start = 0
stop = None
step = number_of_baskets

first_basket = items[start:stop:step]

这一点特别优雅，因为切片不关心数据的长度-结果，我们的第一个篮子，只要它需要的长度就可以了。我们只需要增加每个篮子的起点。

事实上，这可能是一行代码，但为了可读性和避免代码过长，我们将使用多行代码：

from typing import List, Any

def slice_baskets(items: List[Any], maxbaskets: int) -> List[List[Any]]:
    n_baskets = min(maxbaskets, len(items))
    return [items[i::n_baskets] for i in range(n_baskets)]

来自itertools模块的islice将提供一种懒惰的迭代方法，就像问题中最初要求的那样。

我不认为大多数用例会受益匪浅，因为原始数据已经在列表中完全具体化，但对于大型数据集，它可以节省近一半的内存使用。

from itertools import islice
from typing import List, Any, Generator
    
def yield_islice_baskets(items: List[Any], maxbaskets: int) -> Generator[List[Any], None, None]:
    n_baskets = min(maxbaskets, len(items))
    for i in range(n_baskets):
        yield islice(items, i, None, n_baskets)

查看结果：

from pprint import pprint

items = list(range(10, 75))
pprint(cycle_baskets(items, 10))
pprint(slice_baskets(items, 10))
pprint([list(s) for s in yield_islice_baskets(items, 10)])

更新了以前的解决方案

这是另一个平衡的解决方案，改编自我过去在生产中使用的函数，它使用模运算符：

def baskets_from(items, maxbaskets=25):
    baskets = [[] for _ in range(maxbaskets)]
    for i, item in enumerate(items):
        baskets[i % maxbaskets].append(item)
    return filter(None, baskets)

我创建了一个生成器，如果您将其放入列表中，它也会执行同样的操作：

def iter_baskets_from(items, maxbaskets=3):
    '''generates evenly balanced baskets from indexable iterable'''
    item_count = len(items)
    baskets = min(item_count, maxbaskets)
    for x_i in range(baskets):
        yield [items[y_i] for y_i in range(x_i, item_count, baskets)]

最后，由于我看到上述所有函数都以连续的顺序返回元素（正如给定的那样）：

def iter_baskets_contiguous(items, maxbaskets=3, item_count=None):
    '''
    generates balanced baskets from iterable, contiguous contents
    provide item_count if providing a iterator that doesn't support len()
    '''
    item_count = item_count or len(items)
    baskets = min(item_count, maxbaskets)
    items = iter(items)
    floor = item_count // baskets 
    ceiling = floor + 1
    stepdown = item_count % baskets
    for x_i in range(baskets):
        length = ceiling if x_i < stepdown else floor
        yield [items.next() for _ in range(length)]

输出

要测试它们：

print(baskets_from(range(6), 8))
print(list(iter_baskets_from(range(6), 8)))
print(list(iter_baskets_contiguous(range(6), 8)))
print(baskets_from(range(22), 8))
print(list(iter_baskets_from(range(22), 8)))
print(list(iter_baskets_contiguous(range(22), 8)))
print(baskets_from('ABCDEFG', 3))
print(list(iter_baskets_from('ABCDEFG', 3)))
print(list(iter_baskets_contiguous('ABCDEFG', 3)))
print(baskets_from(range(26), 5))
print(list(iter_baskets_from(range(26), 5)))
print(list(iter_baskets_contiguous(range(26), 5)))

打印结果：

[[0], [1], [2], [3], [4], [5]]
[[0], [1], [2], [3], [4], [5]]
[[0], [1], [2], [3], [4], [5]]
[[0, 8, 16], [1, 9, 17], [2, 10, 18], [3, 11, 19], [4, 12, 20], [5, 13, 21], [6, 14], [7, 15]]
[[0, 8, 16], [1, 9, 17], [2, 10, 18], [3, 11, 19], [4, 12, 20], [5, 13, 21], [6, 14], [7, 15]]
[[0, 1, 2], [3, 4, 5], [6, 7, 8], [9, 10, 11], [12, 13, 14], [15, 16, 17], [18, 19], [20, 21]]
[['A', 'D', 'G'], ['B', 'E'], ['C', 'F']]
[['A', 'D', 'G'], ['B', 'E'], ['C', 'F']]
[['A', 'B', 'C'], ['D', 'E'], ['F', 'G']]
[[0, 5, 10, 15, 20, 25], [1, 6, 11, 16, 21], [2, 7, 12, 17, 22], [3, 8, 13, 18, 23], [4, 9, 14, 19, 24]]
[[0, 5, 10, 15, 20, 25], [1, 6, 11, 16, 21], [2, 7, 12, 17, 22], [3, 8, 13, 18, 23], [4, 9, 14, 19, 24]]
[[0, 1, 2, 3, 4, 5], [6, 7, 8, 9, 10], [11, 12, 13, 14, 15], [16, 17, 18, 19, 20], [21, 22, 23, 24, 25]]

注意，连续生成器以与其他两个相同的长度模式提供块，但这些项都是有序的，并且它们被均匀地划分，就像可以划分离散元素列表一样。

2014-02-13 23:07:17

如何将列表分成大小相等的块？

推荐文章

最新文章

标签