据我所知,range()函数实际上是Python 3中的一种对象类型,它动态生成其内容,类似于生成器。

在这种情况下,我预计下一行将花费大量时间,因为为了确定1万亿是否在该范围内,必须生成1万亿值:

1_000_000_000_000_000 in range(1_000_000_000_000_001)

此外:似乎无论我加上多少个零,计算或多或少都需要相同的时间(基本上是瞬时的)。

我也尝试过类似的方法,但计算仍然几乎是即时的:

# count by tens
1_000_000_000_000_000_000_000 in range(0,1_000_000_000_000_000_000_001,10)

如果我尝试实现自己的范围函数,结果就不那么好了!

def my_crappy_range(N):
    i = 0
    while i < N:
        yield i
        i += 1
    return

range()对象在引擎盖下做什么使其如此快速?


选择Martijn Pieters的答案是因为它的完整性,但也可以看到abarnert的第一个答案,它很好地讨论了范围在Python 3中是一个完整的序列意味着什么,以及关于Python实现中__contains_函数优化的潜在不一致性的一些信息/警告。abarnert的另一个答案更为详细,并为那些对Python 3优化背后的历史感兴趣的人提供了链接(以及Python 2中xrange的优化不足)。poke和wim的答案为感兴趣的人提供了相关的C源代码和解释。


当前回答

对于较大的x值,请尝试x-1 in(i代表i in range(x)),这使用生成器理解来避免调用范围__包含优化。

其他回答

这一切都是关于一种懒惰的评估方法和一些额外的范围优化。在实际使用之前,不需要计算范围内的值,或者由于额外的优化,甚至不需要进一步计算。

顺便说一下,您的整数没有那么大,请考虑sys.maxsize

范围内的sys.maxsize(sys.maxssize)非常快

由于优化,很容易将给定的整数与范围的最小值和最大值进行比较。

but:

范围(sys.maxsize)中的十进制(sys.mazsize)非常慢。

(在这种情况下,范围内没有优化,所以如果python收到意外的Decimal,python将比较所有数字)

您应该了解实现细节,但不应依赖它,因为这可能会在将来发生变化。

__contains_方法直接与范围的开始和结束进行比较

由于优化,很容易将给定的整数与最小和最大范围进行比较。在Python3中,range()函数速度如此之快的原因是这里我们对边界使用数学推理,而不是直接迭代range对象。因此,为了解释这里的逻辑:

检查数字是否在开始和停止之间。检查步长精度值是否超过我们的数字。

举个例子,997在范围(4、1000、3)内,因为:4<=997<1000,以及(997-4)%3==0。

TL;博士

range()返回的对象实际上是一个range对象。此对象实现迭代器接口,因此您可以像生成器、列表或元组一样顺序地迭代其值。

但它也实现了__contains__接口,当对象出现在in运算符的右侧时,实际上会调用该接口。__contains__()方法返回一个bool,表示in左侧的项是否在对象中。因为范围对象知道它们的边界和步幅,所以这很容易在O(1)中实现。

Python 3 range()对象不会立即生成数字;它是一个按需生成数字的智能序列对象。它包含的只是开始值、停止值和步长值,然后在迭代对象时,每次迭代都会计算下一个整数。

该对象还实现了该对象__contains_hook,并计算您的数字是否属于其范围。计算是一个(接近)恒定的时间操作*。永远不需要扫描范围内所有可能的整数。

从range()对象文档中:

与常规列表或元组相比,范围类型的优势在于,范围对象将始终占用相同(少量)的内存,无论其所代表的范围大小(因为它只存储开始、停止和步长值,根据需要计算单个项和子范围)。

因此,range()对象至少可以做到:

class my_range:
    def __init__(self, start, stop=None, step=1, /):
        if stop is None:
            start, stop = 0, start
        self.start, self.stop, self.step = start, stop, step
        if step < 0:
            lo, hi, step = stop, start, -step
        else:
            lo, hi = start, stop
        self.length = 0 if lo > hi else ((hi - lo - 1) // step) + 1

    def __iter__(self):
        current = self.start
        if self.step < 0:
            while current > self.stop:
                yield current
                current += self.step
        else:
            while current < self.stop:
                yield current
                current += self.step

    def __len__(self):
        return self.length

    def __getitem__(self, i):
        if i < 0:
            i += self.length
        if 0 <= i < self.length:
            return self.start + i * self.step
        raise IndexError('my_range object index out of range')

    def __contains__(self, num):
        if self.step < 0:
            if not (self.stop < num <= self.start):
                return False
        else:
            if not (self.start <= num < self.stop):
                return False
        return (num - self.start) % self.step == 0

这仍然缺少real-range()支持的一些东西(例如.index()或.count()方法、哈希、相等测试或切片),但应该会给你一个想法。

我还简化了__contains__实现,只关注整数测试;如果给一个real-range()对象一个非整数值(包括int的子类),就会启动一个慢扫描,看看是否匹配,就像对所有包含值的列表使用包含测试一样。这样做是为了继续支持其他恰好支持整数相等测试但不支持整数算术的数字类型。请参阅实现包含测试的Python原始问题。


*接近常数时间,因为Python整数是无限的,所以数学运算也随着N的增长而随时间增长,因此这是一个O(logN)运算。由于它都是在经过优化的C代码中执行的,并且Python将整数值存储在30位块中,因此在您看到由于此处涉及的整数的大小而产生的任何性能影响之前,您可能会耗尽内存。