生成一个不在40亿个给定整数中的整数

我的面试问题是这样的:

给定一个包含40亿个整数的输入文件，提供一种算法来生成一个文件中不包含的整数。假设您有1gb内存。如果你只有10mb的内存，你会怎么做。

我的分析:

文件大小为4×109×4 bytes = 16gb。

我们可以进行外部排序，从而知道整数的范围。

我的问题是，在已排序的大整数集中检测缺失整数的最佳方法是什么?

我的理解(看完所有答案后):

假设我们讨论的是32位整数，有232 = 4*109个不同的整数。

情况1:我们有1gb = 1 * 109 * 8位= 80亿位内存。

解决方案:

如果我们用一位表示一个不同的整数，这就足够了。我们不需要排序。

实现:

int radix = 8;
byte[] bitfield = new byte[0xffffffff/radix];
void F() throws FileNotFoundException{
    Scanner in = new Scanner(new FileReader("a.txt"));
    while(in.hasNextInt()){
        int n = in.nextInt();
        bitfield[n/radix] |= (1 << (n%radix));
    }

    for(int i = 0; i< bitfield.lenght; i++){
        for(int j =0; j<radix; j++){
            if( (bitfield[i] & (1<<j)) == 0) System.out.print(i*radix+j);
        }
    }
}

情形二:10mb内存= 10 * 106 * 8bits = 8000万bits

Solution: For all possible 16-bit prefixes, there are 216 number of integers = 65536, we need 216 * 4 * 8 = 2 million bits. We need build 65536 buckets. For each bucket, we need 4 bytes holding all possibilities because the worst case is all the 4 billion integers belong to the same bucket. Build the counter of each bucket through the first pass through the file. Scan the buckets, find the first one who has less than 65536 hit. Build new buckets whose high 16-bit prefixes are we found in step2 through second pass of the file Scan the buckets built in step3, find the first bucket which doesnt have a hit. The code is very similar to above one.

结论: 我们通过增加文件传递来减少内存。

为那些迟到的人澄清一下:这个问题，正如所问的，并不是说有一个整数没有包含在文件中——至少大多数人不是这么理解的。不过，评论线程中的许多评论都是关于任务的变化。不幸的是，把它引入评论线程的评论后来被它的作者删除了，所以现在看起来它的孤儿回复只是误解了一切。这很让人困惑，抱歉。

当前回答

老问题了，但我想知道“非功能性”需求。在我看来，应该给出一个线索——如果这个问题是在其他地方问的，而不是在一本书里，然后继续讨论所有的可能性的利弊。通常情况下，这似乎是在工作面试中问的，让我困惑的是，在不知道软要求的情况下，不可能给出一个明确的答案，即。“查找缺失的数字一定非常快，因为它一秒钟要使用x次。”

我想这样的问题或许可以给出一个合理的答案。

我将所有数字归并排序到一个新文件中，每个int使用4个字节。当然，一开始做起来会很慢。但是它可以用很小的内存量来完成(你不需要把所有内存都保存在RAM中) 使用二进制搜索检查数字是否存在于预排序文件中。因为每个值仍然是4个字节，这没有问题

缺点:

文件大小第一次排序很慢——但只需要一次

优点:

查找起来非常快

这又是一个非常适合写书的问题。但我认为，当要解决的问题还不完全清楚时，在寻求单一的最佳解决方案时，这是一个奇怪的问题。

2013-10-06 11:49:18

其他回答

正如Ryan所说，基本上，对文件进行排序，然后遍历整数，当一个值被跳过时，你就有了:)

EDIT at downvotes: OP提到文件可以排序，所以这是一个有效的方法。

2011-08-22 21:15:30

如果您不假设32位约束，则只返回一个随机生成的64位数字(如果您比较悲观，则返回128位数字)。碰撞的几率是1 / 2^64/(4*10^9)= 4611686018.4(大约40亿分之一)。大多数时候你都是对的!

(开玩笑的…种)。

2011-08-24 08:12:50

这是个陷阱问题，除非引用不当。只需要通读文件一次，得到最大整数n，并返回n+1。

当然，您需要一个备份计划，以防n+1导致整数溢出。

2011-08-22 21:37:48

我将回答1gb版本:

这个问题没有足够的信息，所以我将先说明一些假设:

整数为32位，取值范围为-2,147,483,648 ~ 2,147,483,647。

伪代码:

var bitArray = new bit[4294967296];  // 0.5 GB, initialized to all 0s.

foreach (var number in file) {
    bitArray[number + 2147483648] = 1;   // Shift all numbers so they start at 0.
}

for (var i = 0; i < 4294967296; i++) {
    if (bitArray[i] == 0) {
        return i - 2147483648;
    }
}

2011-08-23 12:39:39

通过在某种树结构中存储未访问的整数范围，可以在读取现有整数后加快查找丢失的整数的速度。

首先存储[0..]4294967295]，每次读取一个整数，你拼接它所在的范围，当它变成空的时候删除一个范围。最后，你得到了在范围内缺少的精确的整数集。所以如果你把5作为第一个整数，你会得到[0..4]和[6..4294967295]。

这比标记位要慢得多，所以它只适用于10MB的情况，前提是你可以将树的较低级别存储在文件中。

存储这种树的一种方法是使用b -树，其范围的开始作为键，范围的结束作为值。最坏的情况是当你得到的都是奇数或偶数时，这意味着要为树存储2^31个值或几十GB……哎哟。最好的情况是一个排序文件，其中您只需要为整个树使用几个整数。

所以这并不是正确的答案，但我想我应该提到这种方法。我想我面试不及格;-)

2011-09-28 21:43:13

生成一个不在40亿个给定整数中的整数

推荐文章

最新文章

标签