理解“随机性”

我无法理解这个，哪个更随机？

rand()

OR:

rand() * rand()

我发现这是一个真正的脑筋急转弯，你能帮我吗？

编辑：

直觉上，我知道数学上的答案是它们是同样随机的，但我不禁想，如果你在将两者相乘时“运行随机数算法”两次，你会创建比只做一次更随机的东西。

当前回答

使用实现原始多项式的线性反馈移位寄存器（LFSR）。

结果将是一个2^n个伪随机数的序列，即在序列中没有重复，其中n是LFSR中的位数。。。。导致均匀分布。

http://en.wikipedia.org/wiki/Linear_feedback_shift_registerhttp://www.xilinx.com/support/documentation/application_notes/xapp052.pdf

使用基于计算机时钟的微信号的“随机”种子，或者可能是文件系统中一些不断变化的数据的md5结果的子集。

例如，32位LFSR将从给定种子开始按顺序生成2^32个唯一数字（没有2个相同）。序列将始终按照相同的顺序，但对于不同的种子，起点将不同（显然）。因此，如果种子之间可能重复的序列不是问题，那么这可能是一个不错的选择。

我已经使用128位LFSR在硬件模拟器中使用种子生成随机测试，该种子是对不断变化的系统数据的md5结果。

2011-06-02 15:37:26

其他回答

用更离散的数字来考虑可能会有所帮助。考虑一下要生成1到36之间的随机数，所以您决定最简单的方法是投掷两个公平的6面骰子。你得到了这个：

     1    2    3    4    5    6
  -----------------------------
1|   1    2    3    4    5    6
2|   2    4    6    8   10   12
3|   3    6    9   12   15   18
4|   4    8   12   16   20   24   
5|   5   10   15   20   25   30
6|   6   12   18   24   30   36

所以我们有36个数字，但并不是所有数字都得到了公平的表示，有些数字根本没有出现。靠近中心对角线（左下角到右上角）的数字将以最高频率出现。

描述骰子之间不公平分布的相同原则同样适用于0.0和1.0之间的浮点数。

2010-10-18 20:25:07

两者都不是“更随机”的。

rand（）基于伪随机种子生成一组可预测的数字（通常基于当前时间，该时间总是在变化）。将序列中的两个连续数字相乘，生成一个不同但同样可预测的数字序列。

关于这是否会减少冲突，答案是否定的。它实际上会增加冲突，这是因为在0<n<1的情况下，两个数字相乘的结果。结果将是一个较小的分数，导致结果偏向频谱的低端。

一些进一步的解释。在下文中，“不可预测”和“随机”是指某人根据先前的数字猜测下一个数字的能力，即预言。

给定生成以下值列表的种子x：

0.3, 0.6, 0.2, 0.4, 0.8, 0.1, 0.7, 0.3, ...

rand（）将生成上述列表，rand（*rand）将生成：

0.18, 0.08, 0.08, 0.21, ...

这两种方法将始终为同一种子生成相同的数字列表，因此预言者同样可以预测。但是如果你看一下两个调用相乘的结果，你会发现它们都在0.3以下，尽管在原始序列中分布良好。由于两个分数相乘的影响，这些数字是有偏差的。由此产生的数字总是较小，因此更可能发生碰撞，尽管仍然无法预测。

2010-10-18 03:45:19

强制性的xkcd。。。

2010-10-18 20:36:17

好的，所以我会尝试添加一些值来补充其他答案，说你正在创建和使用一个随机数生成器。

随机数发生器是一种具有多种特性的设备（从非常普遍的意义上讲），可以根据需要进行修改。其中一些（来自我）是：

熵：如香农熵分布：统计分布（泊松、正态等）类型：数字的来源（算法、自然事件、组合等）和应用的算法。效率：执行的速度或复杂性。模式：周期、顺序、运行等。也许还有更多。。。

在这里的大多数答案中，分布是主要的关注点，但通过混合和匹配函数和参数，您可以创建生成随机数的新方法，这些随机数将具有不同的特征，其中一些特征乍一看可能不明显。

2011-06-02 13:51:08

公认的答案很好，但有另一种方法可以回答你的问题。PachydermPuncher的答案已经采用了这种替代方法，我只是将其扩展一点。

思考信息理论最简单的方法是用最小的信息单位，一个比特。

在C标准库中，rand（）返回一个0到rand_MAX范围内的整数，根据平台的不同，这个限制可能会有不同的定义。假设RAND_MAX恰好被定义为2^n-1，其中n是某个整数（这恰好是Microsoft实现中的情况，其中n为15）。然后我们可以说，一个好的实现将返回n位信息。

想象一下，rand（）通过翻转硬币找到一位的值来构造随机数，然后重复直到它有一批15位。然后，这些位是独立的（任何一个位的值都不会影响同一批中其他位具有特定值的可能性）。因此，独立考虑的每个比特都像一个介于0和1之间的随机数，并且在该范围内“均匀分布”（可能是0和1）。

位的独立性确保了由一批位表示的数字也将在其范围内均匀分布。这很明显：如果有15位，允许的范围是0到2^15-1=32767。该范围内的每个数字都是唯一的位模式，例如：

010110101110010

并且如果比特是独立的，则没有模式比任何其他模式更可能发生。因此，该范围内所有可能的数字都有相同的可能性。反之亦然：如果rand（）产生均匀分布的整数，那么这些数字是由独立的位组成的。

因此，将rand（）看作是一条生产比特的生产线，它恰好以任意大小的批量提供比特。如果您不喜欢大小，请将批分成单独的位，然后按您喜欢的数量将它们放回一起（尽管如果您需要的特定范围不是2的幂，则需要缩小数字，目前最简单的方法是转换为浮点）。

回到你最初的建议，假设你想从15个批次到30个批次，向rand（）请求第一个数字，将其移位15位，然后向其添加另一个rand（（）。这是一种在不影响均匀分布的情况下组合对rand（的两个调用的方法。它的工作原理很简单，因为放置信息位的位置之间没有重叠。

这与通过乘以常数来“拉伸”rand（）的范围非常不同。例如，如果你想将rand（）的范围加倍，你可以乘以2，但现在你只能得到偶数，而不能得到奇数！这并不完全是一个平稳的分布，并且可能是一个严重的问题，具体取决于应用程序，例如，假设允许奇数/偶数下注的轮盘游戏。（从位的角度考虑，你可以直观地避免这个错误，因为你会意识到，乘以2等于将位向左移动一位（意义更大），然后用零填补空白。所以很明显，信息量是一样的——只是移动了一点。）

在浮点数应用程序中，数字范围中的这种差距是无法解决的，因为浮点数范围内在地具有根本无法表示的差距：在每两个可表示的浮点数之间的差距中存在无限数量的缺失实数！所以无论如何，我们必须学会与差距共处。

正如其他人所警告的那样，直觉在这一领域是有风险的，特别是因为数学家无法抵抗实数的诱惑，因为实数是一种充满了粗糙的无限和明显的悖论的可怕的令人困惑的东西。

但至少如果你从比特角度来看，你的直觉可能会让你走得更远。比特真的很容易——甚至计算机都能理解。

2010-10-19 12:02:09

理解“随机性”

推荐文章

最新文章

标签