SQL仅选择列上具有最大值的行

我有一张文件表（此处为简化版）：

id	rev	content
1	1	...
2	1	...
1	2	...
1	3	...

如何为每个id选择一行，并且仅选择最大的rev？对于上面的数据，结果应该包含两行：[1，3，…]和[2，1，…]。我使用的是MySQL。

目前，我在while循环中使用检查来检测和重写结果集中的旧版本。但这是实现结果的唯一方法吗？没有SQL解决方案吗？

当前回答

我不能保证它的性能，但这里有一个受Microsoft Excel限制启发的技巧。它有一些好的特点

好东西

即使有平局，它也应该强制返回一个“最大记录”（有时有用）它不需要联接

接近，接近

它有点难看，需要您了解rev列的有效值范围。假设我们知道rev列是一个介于0.00和999之间的数字，包括小数，但小数点右侧只有两位数字（例如，34.17是一个有效值）。

这件事的要点是，通过将主比较字段与所需数据串接/打包，可以创建一个单独的合成列。通过这种方式，您可以强制SQL的MAX（）聚合函数返回所有数据（因为它已打包到一列中）。然后您必须解压缩数据。

下面是上面用SQL编写的示例的外观

SELECT id, 
       CAST(SUBSTRING(max(packed_col) FROM 2 FOR 6) AS float) as max_rev,
       SUBSTRING(max(packed_col) FROM 11) AS content_for_max_rev 
FROM  (SELECT id, 
       CAST(1000 + rev + .001 as CHAR) || '---' || CAST(content AS char) AS packed_col
       FROM yourtable
      ) 
GROUP BY id

包装开始时，将rev列强制为已知字符长度的数字，而不考虑rev的值，例如

3.2变为1003.20157变为1057.001923.88变为1923.881

如果你做得对，两个数字的字符串比较应该产生与两个数字数字比较相同的“最大值”，并且很容易使用substring函数转换回原始数字（这在任何地方都可以使用一种或另一种形式）。

2013-06-30 06:02:30

其他回答

另一种方法是在OVERPARTITION子句中使用MAX（）分析函数

SELECT t.*
  FROM
    (
    SELECT id
          ,rev
          ,contents
          ,MAX(rev) OVER (PARTITION BY id) as max_rev
      FROM YourTable
    ) t
  WHERE t.rev = t.max_rev

本文中已经记录的另一个ROW_NUMBER（）OVERPARTITION解决方案是

SELECT t.*
  FROM
    (
    SELECT id
          ,rev
          ,contents
          ,ROW_NUMBER() OVER (PARTITION BY id ORDER BY rev DESC) rank
      FROM YourTable
    ) t
  WHERE t.rank = 1

此2 SELECT在Oracle 10g上运行良好。

MAX（）解决方案的运行速度肯定比ROW_NUMBER（）方案快，因为MAX（）复杂性为O（n），而ROW_NUMBER（）复杂性最低为O（n.log（n）），其中n表示表中的记录数！

2018-02-20 09:07:22

乍一看。。。

您只需要一个带有MAX聚合函数的GROUP BY子句：

SELECT id, MAX(rev)
FROM YourTable
GROUP BY id

从来没有这么简单，是吗？

我刚刚注意到你也需要内容栏。

这是SQL中一个非常常见的问题：在每个组标识符的列中查找具有某个最大值的行的整个数据。在我的职业生涯中我听过很多。事实上，这是我在当前工作的技术面试中回答的问题之一。

事实上，StackOverflow社区创建了一个标签来处理这样的问题是非常常见的：每个组中最优秀的一个。

基本上，有两种方法可以解决这个问题：

使用简单组标识符连接，组子查询中的最大值

在这种方法中，首先在子查询中找到组标识符，即组中的最大值（上面已经解决）。然后，将表连接到子查询，组标识符和组中的最大值相等：

SELECT a.id, a.rev, a.contents
FROM YourTable a
INNER JOIN (
    SELECT id, MAX(rev) rev
    FROM YourTable
    GROUP BY id
) b ON a.id = b.id AND a.rev = b.rev

左侧使用自身连接，调整连接条件和过滤器

在这种方法中，您可以将表与自身连接起来。组标识符中包含相等项。然后，两个聪明的动作：

第二个连接条件的左侧值小于右侧值执行步骤1时，实际具有最大值的行的右侧将为NULL（这是一个LEFT JOIN，记得吗？）。然后，我们过滤合并结果，只显示右侧为NULL的行。

所以你最终会得到：

SELECT a.*
FROM YourTable a
LEFT OUTER JOIN YourTable b
    ON a.id = b.id AND a.rev < b.rev
WHERE b.id IS NULL;

结论

这两种方法带来的结果完全相同。

如果组标识符的组中有两行具有最大值，则两种方法中的结果都是这两行。

这两种方法都与SQLANSI兼容，因此，无论其“味道”如何，都可以与您喜爱的RDBMS一起使用。

这两种方法都是性能友好的，但是您的里程可能会有所不同（RDBMS、DB结构、索引等）。确保你选择对你最有意义的那一个。

2011-10-12 19:43:53

这是另一个解决方案，希望它能帮助某人

Select a.id , a.rev, a.content from Table1 a
inner join 
(SELECT id, max(rev) rev FROM Table1 GROUP BY id) x on x.id =a.id and x.rev =a.rev

2017-06-20 10:10:35

不是mySQL，但对于其他发现此问题并使用SQL的人，另一种解决最大的每组问题的方法是在MS SQL中使用交叉应用

WITH DocIds AS (SELECT DISTINCT id FROM docs)

SELECT d2.id, d2.rev, d2.content
FROM DocIds d1
CROSS APPLY (
  SELECT Top 1 * FROM docs d
  WHERE d.id = d1.id
  ORDER BY rev DESC
) d2

下面是SqlFiddle中的一个示例

2014-05-30 13:47:53

这是一个很好的方法

使用以下代码：

with temp as  ( 
select count(field1) as summ , field1
from table_name
group by field1 )
select * from temp where summ = (select max(summ) from temp)

2015-01-07 11:36:08

SQL仅选择列上具有最大值的行

推荐文章

最新文章

标签