从SQL Server表中随机选择n行

我有一个SQL Server表，其中有大约50,000行。我想随机选择大约5000行。我想到了一种复杂的方法，创建一个带有“随机数”列的临时表，将我的表复制到其中，循环遍历临时表并使用RAND()更新每一行，然后从该表中选择随机数列< 0.1的列。我正在寻找一种更简单的方法，如果可能的话，在一个单一的声明中。

本文建议使用NEWID()函数。这看起来很有希望，但我不知道如何可靠地选择一定百分比的行。

有人做过这个吗?什么好主意吗?

当前回答

如果你(不像OP)需要特定数量的记录(这使得CHECKSUM方法很困难)，并且想要一个比TABLESAMPLE本身提供的更随机的样本，并且也想要比CHECKSUM更好的速度，你可以将TABLESAMPLE和NEWID()方法合并，如下所示:

DECLARE @sampleCount int = 50
SET STATISTICS TIME ON

SELECT TOP (@sampleCount) * 
FROM [yourtable] TABLESAMPLE(10 PERCENT)
ORDER BY NEWID()

SET STATISTICS TIME OFF

就我而言，这是随机性(我知道这并不是真的)和速度之间最直接的妥协。适当地改变TABLESAMPLE百分比(或行数)——百分比越高，样本的随机性越大，但速度会有线性下降。(注意，TABLESAMPLE不接受变量)

2012-09-26 17:23:46

其他回答

select top 10 percent * from [yourtable] order by newid()

针对关于大型表的“纯粹垃圾”评论:您可以这样做以提高性能。

select  * from [yourtable] where [yourPk] in 
(select top 10 percent [yourPk] from [yourtable] order by newid())

这样做的成本将是值的关键扫描加上连接成本，对于一个选择百分比较小的大表来说，这应该是合理的。

2009-05-11 16:26:29

从MSDN上的大表中随机选择行有一个简单的、明确的解决方案，可以解决大规模性能问题。

  SELECT * FROM Table1
  WHERE (ABS(CAST(
  (BINARY_CHECKSUM(*) *
  RAND()) as int)) % 100) < 10

2012-09-05 22:23:02

select  * from table
where id in (
    select id from table
order by random()
limit ((select count(*) from table)*55/100))

// to select 55 percent of rows randomly

2020-09-04 10:29:50

newid()似乎不能在where子句中使用，所以这个解决方案需要一个内部查询:

SELECT *
FROM (
    SELECT *, ABS(CHECKSUM(NEWID())) AS Rnd
    FROM MyTable
) vw
WHERE Rnd % 100 < 10        --10%

2015-05-07 22:17:37

我在子查询中使用它，它在子查询中返回我相同的行

 SELECT  ID ,
            ( SELECT TOP 1
                        ImageURL
              FROM      SubTable 
              ORDER BY  NEWID()
            ) AS ImageURL,
            GETUTCDATE() ,
            1
    FROM    Mytable

然后我解决了包括父表变量在哪里

SELECT  ID ,
            ( SELECT TOP 1
                        ImageURL
              FROM      SubTable 
              Where Mytable.ID>0
              ORDER BY  NEWID()
            ) AS ImageURL,
            GETUTCDATE() ,
            1
    FROM    Mytable

注意where条件

2017-11-10 12:40:18

从SQL Server表中随机选择n行

推荐文章

最新文章

标签