如何在纯SQL中请求随机行(或尽可能接近真正的随机)?
当前回答
您也可以尝试使用new id()函数。
只需编写一个查询并使用order by new id()函数。它是随机的。
其他回答
我还没看出来答案有什么不同。我有一个额外的约束条件,给定一个初始种子,每次都要选择相同的行集。
对于MS SQL:
最小的例子:
select top 10 percent *
from table_name
order by rand(checksum(*))
规范化执行时间:1.00
NewId()例子:
select top 10 percent *
from table_name
order by newid()
规范化执行时间:1.02
NewId()比rand(checksum(*))慢不了多少,所以您可能不希望对大型记录集使用它。
初始种子选择:
declare @seed int
set @seed = Year(getdate()) * month(getdate()) /* any other initial seed here */
select top 10 percent *
from table_name
order by rand(checksum(*) % seed) /* any other math function here */
如果给定一个种子,你需要选择相同的集合,这似乎是可行的。
对于SQL Server 2005和2008,如果我们想要一个随机的个别行样本(来自Books Online):
SELECT * FROM Sales.SalesOrderDetail
WHERE 0.01 >= CAST(CHECKSUM(NEWID(), SalesOrderID) & 0x7fffffff AS float)
/ CAST (0x7fffffff AS int)
我不知道这有多有效,但我以前用过:
SELECT TOP 1 * FROM MyTable ORDER BY newid()
因为guid是非常随机的,所以顺序意味着您得到的是随机行。
在MSSQL(在11.0.5569上测试)中使用
SELECT TOP 100 * FROM employee ORDER BY CRYPT_GEN_RANDOM(10)
明显快于
SELECT TOP 100 * FROM employee ORDER BY NEWID()
这里的大多数解决方案都旨在避免排序,但它们仍然需要对表进行顺序扫描。
还有一种方法可以通过切换到索引扫描来避免顺序扫描。如果你知道你随机行的下标值,你几乎可以立即得到结果。问题是——如何猜测一个索引值。
以下方案适用于PostgreSQL 8.4版本:
explain analyze select * from cms_refs where rec_id in
(select (random()*(select last_value from cms_refs_rec_id_seq))::bigint
from generate_series(1,10))
limit 1;
我上面的解决方案你猜10个不同的随机指标值从范围0 ..[id的最后一个值]。
数字10是任意的-你可以使用100或1000,因为它(令人惊讶的是)对响应时间没有太大的影响。
还有一个问题-如果你有稀疏的id,你可能会错过。解决方案是有一个备份计划:)在这种情况下,一个纯旧order by random()查询。当合并id看起来像这样:
explain analyze select * from cms_refs where rec_id in
(select (random()*(select last_value from cms_refs_rec_id_seq))::bigint
from generate_series(1,10))
union all (select * from cms_refs order by random() limit 1)
limit 1;
不是union ALL条款。在这种情况下,如果第一部分返回任何数据,那么第二部分将永远不会执行!
推荐文章
- 如何在Ruby On Rails中使用NuoDB手动执行SQL命令
- 查询JSON类型内的数组元素
- 确定记录是否存在的最快方法
- 获得PostgreSQL数据库中当前连接数的正确查询
- 如何在Ruby中生成a和b之间的随机数?
- 在SQL选择语句Order By 1的目的是什么?
- 我如何循环通过一组记录在SQL Server?
- 如何从命令行通过mysql运行一个查询?
- 外键约束可能导致循环或多条级联路径?
- java.util.Random真的那么随机吗?我怎么能生成52!(阶乘)可能的序列?
- 使用LIMIT/OFFSET运行查询,还可以获得总行数
- 从数组中随机选择一个元素
- 当恢复sql时,psql无效命令\N
- 货币应该使用哪种数据类型?
- 如何选择每一行的列值不是独特的