如何删除重复的行?

我需要从一个相当大的SQL Server表(即300,000+行)中删除重复的行。

当然，由于RowID标识字段的存在，这些行不会完全重复。

MyTable

RowID int not null identity(1,1) primary key,
Col1 varchar(20) not null,
Col2 varchar(2048) not null,
Col3 tinyint not null

我该怎么做呢?

当前回答

现在让我们看看elasticalsearch表，这个表有重复的行，Id是相同的uniq字段。我们知道如果某个id存在于某个组条件下，那么我们可以删除该组作用域之外的其他行。我的举止表明了这一标准。

很多情况下，这个线程是在类似的状态，我。只需根据删除重复(重复)行的情况更改目标组条件。

DELETE 
FROM elasticalsearch
WHERE Id NOT IN 
               (SELECT min(Id)
                     FROM elasticalsearch
                     GROUP BY FirmId,FilterSearchString
                     )

干杯

2016-01-11 20:31:40

其他回答

首先，您可以使用MIN()和Group By选择最小RowId。我们将保留这些行。

   SELECT MIN(RowId) as RowId
   FROM MyTable 
   GROUP BY Col1, Col2, Col3

删除那些不在最小RowId使用范围内的RowId

DELETE FROM MyTable WHERE RowId Not IN()

最后的查询:

DELETE FROM MyTable WHERE RowId Not IN(

    SELECT MIN(RowId) as RowId
    FROM MyTable 
    GROUP BY Col1, Col2, Col3
)

你也可以在SQL Fiddle中检查我的答案

2021-09-18 19:02:04

另一种方法是创建一个具有相同字段和唯一索引的新表。然后将所有数据从旧表移动到新表。自动SQL SERVER忽略(也有一个选项说明如果有重复值该怎么做:忽略，中断或…)重复值。所以我们有相同的表，没有重复的行。如果你不想要唯一索引，传输数据后，你可以放弃它。

特别是对于较大的表，您可以使用DTS (SSIS包导入/导出数据)，以便将所有数据快速传输到新的唯一索引表中。700万行只需要几分钟。

2013-09-18 06:36:12

我更喜欢子查询\having count(*) > 1解决方案内部连接，因为我发现它更容易阅读，它很容易变成一个SELECT语句来验证什么将被删除，然后再运行它。

--DELETE FROM table1 
--WHERE id IN ( 
     SELECT MIN(id) FROM table1 
     GROUP BY col1, col2, col3 
     -- could add a WHERE clause here to further filter
     HAVING count(*) > 1
--)

2014-03-01 07:40:18

从应用程序级别(不幸的是)。我同意防止重复的正确方法是在数据库级别上使用唯一的索引，但是在SQL Server 2005中，一个索引只能是900字节，而我的varchar(2048)字段打破了这一规定。

我不知道它的性能如何，但我认为您可以编写一个触发器来强制执行这一点，即使您不能直接使用索引。喜欢的东西:

-- given a table stories(story_id int not null primary key, story varchar(max) not null)
CREATE TRIGGER prevent_plagiarism 
ON stories 
after INSERT, UPDATE 
AS 
    DECLARE @cnt AS INT 

    SELECT @cnt = Count(*) 
    FROM   stories 
           INNER JOIN inserted 
                   ON ( stories.story = inserted.story 
                        AND stories.story_id != inserted.story_id ) 

    IF @cnt > 0 
      BEGIN 
          RAISERROR('plagiarism detected',16,1) 

          ROLLBACK TRANSACTION 
      END

另外，varchar(2048)对我来说听起来很可疑(生活中有些东西是2048字节，但这很少见);它真的应该不是varchar(max)吗?

2008-08-20 22:53:12

DELETE
FROM
    table_name T1
WHERE
    rowid > (
        SELECT
            min(rowid)
        FROM
            table_name T2
        WHERE
            T1.column_name = T2.column_name
    );

2013-10-03 06:18:06

如何删除重复的行?

推荐文章

最新文章

标签