SQL: PARTITION BY和GROUP BY的区别

多年来，我一直在对所有类型的聚合查询使用GROUP BY。最近，我一直在逆向工程一些使用PARTITION BY来执行聚合的代码。

在阅读我能找到的所有关于PARTITION BY的文档时，它听起来很像GROUP BY，可能还添加了一些额外的功能。

它们是相同功能的两个版本还是完全不同的东西?

当前回答

我们可以举一个简单的例子。

考虑一个名为TableA的表，其值如下:

id  firstname                   lastname                    Mark
-------------------------------------------------------------------
1   arun                        prasanth                    40
2   ann                         antony                      45
3   sruthy                      abc                         41
6   new                         abc                         47
1   arun                        prasanth                    45
1   arun                        prasanth                    49
2   ann                         antony                      49

集团

可以在SELECT语句中使用SQL GROUP BY子句进行收集跨多个记录的数据，并将结果按一个或多个分组列。简单来说，GROUP BY语句与聚合函数将结果集按一个或多个分组列。

语法:

SELECT expression1, expression2, ... expression_n, 
       aggregate_function (aggregate_expression)
FROM tables
WHERE conditions
GROUP BY expression1, expression2, ... expression_n;

我们可以在我们的表中应用GROUP BY:

select SUM(Mark)marksum,firstname from TableA
group by id,firstName

结果:

marksum  firstname
----------------
94      ann                      
134     arun                     
47      new                      
41      sruthy

在我们的实际表中，我们有7行，当我们应用GROUP BY id时，服务器会根据id对结果进行分组:

简单地说:

这里GROUP BY通常减少滚动返回的行数并为每一行计算Sum()。

分区的

在讨论PARTITION BY之前，让我们看一下OVER子句:

根据MSDN的定义:

控件中定义窗口或用户指定的行集查询结果集。然后，窗口函数为每一行计算一个值在窗户里。可以对函数使用OVER子句进行计算诸如移动平均线、累计总数、运行总数，或每组结果的前N名。

PARTITION BY不会减少返回的行数。

我们可以在示例表中应用PARTITION BY:

SELECT SUM(Mark) OVER (PARTITION BY id) AS marksum, firstname FROM TableA

结果:

marksum firstname 
-------------------
134     arun                     
134     arun                     
134     arun                     
94      ann                      
94      ann                      
41      sruthy                   
47      new

看看结果——它将对行进行分区并返回所有行，这与GROUP BY不同。

2015-06-18 06:06:02

其他回答

PARTITION BY是分析的，GROUP BY是聚合的。为了使用PARTITION BY，你必须用OVER子句来包含它。

2010-03-08 20:44:25

我们可以举一个简单的例子。

考虑一个名为TableA的表，其值如下:

id  firstname                   lastname                    Mark
-------------------------------------------------------------------
1   arun                        prasanth                    40
2   ann                         antony                      45
3   sruthy                      abc                         41
6   new                         abc                         47
1   arun                        prasanth                    45
1   arun                        prasanth                    49
2   ann                         antony                      49

集团

语法:

SELECT expression1, expression2, ... expression_n, 
       aggregate_function (aggregate_expression)
FROM tables
WHERE conditions
GROUP BY expression1, expression2, ... expression_n;

我们可以在我们的表中应用GROUP BY:

select SUM(Mark)marksum,firstname from TableA
group by id,firstName

结果:

marksum  firstname
----------------
94      ann                      
134     arun                     
47      new                      
41      sruthy

在我们的实际表中，我们有7行，当我们应用GROUP BY id时，服务器会根据id对结果进行分组:

简单地说:

这里GROUP BY通常减少滚动返回的行数并为每一行计算Sum()。

分区的

在讨论PARTITION BY之前，让我们看一下OVER子句:

根据MSDN的定义:

PARTITION BY不会减少返回的行数。

我们可以在示例表中应用PARTITION BY:

SELECT SUM(Mark) OVER (PARTITION BY id) AS marksum, firstname FROM TableA

结果:

marksum firstname 
-------------------
134     arun                     
134     arun                     
134     arun                     
94      ann                      
94      ann                      
41      sruthy                   
47      new

看看结果——它将对行进行分区并返回所有行，这与GROUP BY不同。

2015-06-18 06:06:02

它们被用在不同的地方。GROUP BY修改整个查询，比如:

select customerId, count(*) as orderCount
from Orders
group by customerId

但是PARTITION BY只适用于窗口函数，比如ROW_NUMBER():

select row_number() over (partition by customerId order by orderId)
    as OrderNumberForThisCustomer
from Orders

GROUP BY通常减少滚动返回的行数他们计算每行的平均值或总和。 PARTITION BY不影响返回的行数，但是它更改窗口函数结果的计算方式。

2010-03-08 20:43:25

假设我们在表中有14条name列的记录

在小组由

select name,count(*) as totalcount from person where name='Please fill out' group BY name;

它将给出单行计数，即14

但是在除以

select row_number() over (partition by name) as total from person where name = 'Please fill out';

它将增加14行计数

2016-04-13 15:54:54

它有非常不同的使用场景。当您使用GROUP BY时，您合并了相同列的一些记录，并获得了结果集的聚合。

然而，当你使用PARTITION BY时，你的结果集是相同的，但你只是对窗口函数进行了聚合，而你没有合并记录，你仍然会有相同的记录计数。

以下是一篇对市场有帮助的文章，解释了两者的区别: http://alevryustemov.com/sql/sql-partition-by/

2019-07-02 09:03:28

SQL: PARTITION BY和GROUP BY的区别

推荐文章

最新文章

标签