理解“随机性”

我无法理解这个，哪个更随机？

rand()

OR:

rand() * rand()

我发现这是一个真正的脑筋急转弯，你能帮我吗？

编辑：

直觉上，我知道数学上的答案是它们是同样随机的，但我不禁想，如果你在将两者相乘时“运行随机数算法”两次，你会创建比只做一次更随机的东西。

当前回答

公认的答案很好，但有另一种方法可以回答你的问题。PachydermPuncher的答案已经采用了这种替代方法，我只是将其扩展一点。

思考信息理论最简单的方法是用最小的信息单位，一个比特。

在C标准库中，rand（）返回一个0到rand_MAX范围内的整数，根据平台的不同，这个限制可能会有不同的定义。假设RAND_MAX恰好被定义为2^n-1，其中n是某个整数（这恰好是Microsoft实现中的情况，其中n为15）。然后我们可以说，一个好的实现将返回n位信息。

想象一下，rand（）通过翻转硬币找到一位的值来构造随机数，然后重复直到它有一批15位。然后，这些位是独立的（任何一个位的值都不会影响同一批中其他位具有特定值的可能性）。因此，独立考虑的每个比特都像一个介于0和1之间的随机数，并且在该范围内“均匀分布”（可能是0和1）。

位的独立性确保了由一批位表示的数字也将在其范围内均匀分布。这很明显：如果有15位，允许的范围是0到2^15-1=32767。该范围内的每个数字都是唯一的位模式，例如：

010110101110010

并且如果比特是独立的，则没有模式比任何其他模式更可能发生。因此，该范围内所有可能的数字都有相同的可能性。反之亦然：如果rand（）产生均匀分布的整数，那么这些数字是由独立的位组成的。

因此，将rand（）看作是一条生产比特的生产线，它恰好以任意大小的批量提供比特。如果您不喜欢大小，请将批分成单独的位，然后按您喜欢的数量将它们放回一起（尽管如果您需要的特定范围不是2的幂，则需要缩小数字，目前最简单的方法是转换为浮点）。

回到你最初的建议，假设你想从15个批次到30个批次，向rand（）请求第一个数字，将其移位15位，然后向其添加另一个rand（（）。这是一种在不影响均匀分布的情况下组合对rand（的两个调用的方法。它的工作原理很简单，因为放置信息位的位置之间没有重叠。

这与通过乘以常数来“拉伸”rand（）的范围非常不同。例如，如果你想将rand（）的范围加倍，你可以乘以2，但现在你只能得到偶数，而不能得到奇数！这并不完全是一个平稳的分布，并且可能是一个严重的问题，具体取决于应用程序，例如，假设允许奇数/偶数下注的轮盘游戏。（从位的角度考虑，你可以直观地避免这个错误，因为你会意识到，乘以2等于将位向左移动一位（意义更大），然后用零填补空白。所以很明显，信息量是一样的——只是移动了一点。）

在浮点数应用程序中，数字范围中的这种差距是无法解决的，因为浮点数范围内在地具有根本无法表示的差距：在每两个可表示的浮点数之间的差距中存在无限数量的缺失实数！所以无论如何，我们必须学会与差距共处。

正如其他人所警告的那样，直觉在这一领域是有风险的，特别是因为数学家无法抵抗实数的诱惑，因为实数是一种充满了粗糙的无限和明显的悖论的可怕的令人困惑的东西。

但至少如果你从比特角度来看，你的直觉可能会让你走得更远。比特真的很容易——甚至计算机都能理解。

2010-10-19 12:02:09

其他回答

当你对随机数的组合会发生什么感到怀疑时，你可以利用你在统计理论中学到的经验。

在OP的情况下，他想知道X*X=X^2的结果是什么，其中X是沿统一[0,1]分布的随机变量。我们将使用CDF技术，因为它只是一对一映射。

由于X~Uniform[0,1]，其cdf为：fX（X）=1我们需要转换Y<-X^2，因此Y=X^2求逆x（y）：sqrt（y）=x，这给出了x作为y的函数。接下来，求导数dx/dy:d/dy（sqrt（y））=1/（2sqrt（y）

Y的分布如下：fY（Y）=fX（x（Y））|dx/dy |=1/（2 sqrt（Y）

我们还没有完成，我们必须得到Y的域，因为0<=x<1，0<=x^2<1因此Y在范围[0，1）内。如果你想检查Y的pdf是否真的是pdf，请在域中集成它：从0到1集成1/（2 sqrt（Y）），实际上，它会弹出为1。此外，请注意所述函数的形状看起来像belisarious发布的内容。

至于X1+X2+…+Xn，（其中Xi ~一致[0,1]），我们可以求助于中心极限定理，它适用于存在矩的任何分布。这就是Z检验存在的原因。

用于确定生成的pdf的其他技术包括雅可比变换（这是cdf技术的广义版本）和MGF技术。

编辑：作为澄清，请注意，我所说的是结果转换的分布，而不是其随机性。这实际上是一个单独的讨论。我实际上得到的是（rand（））^2。对于rand（）*rand（（），它要复杂得多，无论如何，这不会导致任何类型的均匀分布。

2010-10-18 14:02:34

正如其他人所说，简单的简短答案是：不，它不是更随机的，但它确实改变了分布。

假设你在玩骰子游戏。你有一些完全公平的随机骰子。如果在每次掷骰子之前，你先把两个骰子放在一个碗里，摇晃它，随机选一个骰子，然后掷那一个，掷骰子会更随机吗？显然，这不会有什么不同。如果两个骰子都给出了随机数字，那么从两个骰子中随机选择一个不会有任何区别。无论哪种方式，你都会得到一个介于1和6之间的随机数，在足够数量的卷上均匀分布。

我想在现实生活中，如果你怀疑骰子可能不公平，这样的程序可能会有用。例如，如果骰子稍微不平衡，那么一个骰子往往比1/6的时间更频繁地给出1，而另一个骰子则往往异常频繁地给出6，那么在这两个骰子之间随机选择将有助于掩盖偏差。（尽管在这种情况下，1和6仍然比2、3、4和5多。嗯，我想这取决于失衡的性质。）

随机性有很多定义。随机序列的一个定义是，它是由随机过程产生的一系列数字。根据这个定义，如果我掷一个公平骰子5次，得到数字2、4、3、2、5，那就是一个随机序列。如果我再掷同样的骰子5次，得到1，1，1、1，1和1，那么这也是一个随机序列。

一些海报指出，计算机上的随机函数不是真正随机的，而是伪随机的，如果你知道算法和种子，它们是完全可预测的。这是真的，但大多数时候是完全无关的。如果我洗牌，然后一次翻一张，这应该是一个随机系列。如果有人偷看卡片，结果将是完全可预测的，但根据大多数随机性的定义，这并不会减少随机性。如果该系列通过了随机性统计测试，我偷看卡片的事实不会改变这一事实。在实践中，如果我们在赌你猜下一张牌的能力，那么你偷看这些牌的事实是非常重要的。如果我们使用该系列来模拟访问我们网站的访客的菜单选择，以测试系统的性能，那么你偷看的事实将毫无区别。（只要您不修改程序以利用这些知识。）

EDIT

我认为我无法将我对蒙蒂霍尔问题的回应变成评论，所以我会更新我的答案。

对于那些没有阅读Belisarius链接的人来说，其要点是：游戏节目参赛者可以选择3个门。在一个人的背后是有价值的奖品，在其他人的背后是毫无价值的东西。他选了1号门。在揭示它是赢家还是输家之前，主持人打开3号门，揭示它是输家。然后，他给了参赛者切换到2号门的机会。参赛者是否应该这样做？

答案是，他应该改变，这违背了许多人的直觉。他最初选择的获胜者的概率是1/3，而另一个门获胜的概率是2/3。我和许多其他人的直觉一样，最初的直觉是，切换不会有任何好处，赔率刚刚改为50:50。

毕竟，假设有人在主持人打开丢失的门后打开了电视。那个人会看到剩下的两扇紧闭的门。假设他知道游戏的性质，他会说每个门都有1/2的机会隐藏奖品。观众的赔率是1/2:1/2，而参赛者的赔率却是1/3:2/3？

我真的不得不考虑这一点，才能让我的直觉成形。要了解它，请理解，当我们讨论像这样的问题中的概率时，我们的意思是，在给定可用信息的情况下，您分配的概率。对于将奖品放在1号门后面的工作人员来说，奖品在1号门后的概率为100%，而在其他两个门后面的概率为零。

机组成员的赔率与参赛者的赔率不同，因为他知道参赛者不知道的东西，即他把奖品放在了哪个门后面。同样，竞争对手的赔率与观众的赔率不同，因为他知道观众不知道的东西，即他最初选择了哪扇门。这并不是无关紧要的，因为主人选择打开哪扇门并不是随机的。他不会打开选手选的门，也不会打开隐藏奖品的门。如果这是同一扇门，他就有两个选择。如果它们是不同的门，那么只剩下一扇门。

那么我们如何得出1/3和2/3？当参赛者最初选择一扇门时，他有1/3的机会选择获胜者。我认为这是显而易见的。这意味着有2/3的机会，其他门中的一个获胜。如果东道主给他机会在不提供任何额外信息的情况下进行切换，那就不会有任何收获。同样，这应该是显而易见的。但有一种看法是，他有2/3的机会通过换人获胜。但他有两个选择。因此，每一个人只有2/3除以2=1/3的机会成为赢家，这并不比他最初的选择更好。当然，我们已经知道最终结果，这只是以不同的方式计算。

但现在主持人透露，这两个选择中的一个不是赢家。因此，对于他没有选择的门有2/3的机会获胜，他现在知道，2个备选方案中的1个不是。另一个可能是，也可能不是。因此，他不再有2/3除以2。他打开的门为零，关闭的门为2/3。

2010-10-18 21:25:51

好的，所以我会尝试添加一些值来补充其他答案，说你正在创建和使用一个随机数生成器。

随机数发生器是一种具有多种特性的设备（从非常普遍的意义上讲），可以根据需要进行修改。其中一些（来自我）是：

熵：如香农熵分布：统计分布（泊松、正态等）类型：数字的来源（算法、自然事件、组合等）和应用的算法。效率：执行的速度或复杂性。模式：周期、顺序、运行等。也许还有更多。。。

在这里的大多数答案中，分布是主要的关注点，但通过混合和匹配函数和参数，您可以创建生成随机数的新方法，这些随机数将具有不同的特征，其中一些特征乍一看可能不明显。

2011-06-02 13:51:08

“随机”与“更随机”有点像问哪个零更为零。

在这种情况下，rand是PRNG，所以不是完全随机的。（事实上，如果种子是已知的，那是完全可以预测的）。将其乘以另一个值，使其不再随机。

真正的加密类型RNG实际上是随机的。通过任何类型的函数运行值都不能增加更多的熵，而且很可能会删除熵，使其不再随机。

2010-10-18 03:45:09

根据您的计算机体系结构，相乘数字最终会得到更小的解决方案范围。