使用SQL语句去掉重复的记录【两种方法】

更新时间：2018年05月24日 09:54:13 作者：deng214

这篇文章主要介绍了用SQL语句去掉重复的记录的两种方式，两种方式都可以使用临时表操作，具体实现方法大家跟随脚本之家小编一起通过本文学习吧

GPT4.0+Midjourney绘画+国内大模型会员永久免费使用！
【 如果你想靠AI翻身，你先需要一个靠谱的工具！ 】

海量数据（百万以上），其中有些全部字段都相同，有些部分字段相同，怎样高效去除重复？

如果要删除手机(mobilePhone)，电话(officePhone)，邮件(email)同时都相同的数据，以前一直使用这条语句进行去重：

delete from 表 where id not in 
(select max(id) from 表 group by mobilePhone,officePhone,email )  
or
delete from 表 where id not in 
 (select min(id) from 表 group by mobilePhone,officePhone,email ) 
 
delete from 表 where id not in
(select max(id) from 表 group by mobilePhone,officePhone,email ) 
or
delete from 表 where id not in
 (select min(id) from 表 group by mobilePhone,officePhone,email )

登录后复制免费讲解

其中下面这条会稍快些。上面这条数据对于100万以内的数据效率还可以，重复数1/5的情况下几分钟到几十分钟不等，但是如果数据量达到300万以上，效率骤降，如果重复数据再多点的话，常常会几十小时跑不完，有时候会锁表跑一夜都跑不完。无奈只得重新寻找新的可行方法，今天终于有所收获：

//查询出唯一数据的ID,并把他们导入临时表tmp中  
select min(id) as mid into tmp from 表 group by mobilePhone,officePhone,email  
 //查询出去重后的数据并插入finally表中  
insert into finally select (除ID以外的字段) from customers_1 where id in (select mid from tmp) 
 
//查询出唯一数据的ID,并把他们导入临时表tmp中 
select min(id) as mid into tmp from 表 group by mobilePhone,officePhone,email 
 //查询出去重后的数据并插入finally表中 
insert into finally select (除ID以外的字段) from customers_1 where id in (select mid from tmp)

登录后复制免费讲解

效率对比：用delete方法对500万数据去重（1/2重复）约4小时。4小时，很长的时间。

用临时表插入对500万数据去重（1/2重复）不到10分钟。

其实用删除方式是比较慢的，可能是边找边删除的原因吧，而使用临时表，可以将没有重复的数据ID选出来放在临时表里，再将表的信息按临时表的选择出来的ID，将它们找出来插入到新的表，然后将原表删除，这样就可以快速去重啦。

SQL语句去掉重复记录，获取重复记录

按照某几个字段名称查找表中存在这几个字段的重复数据并按照插入的时间先后进行删除，条件取决于order by 和row_num。

方法一按照多条件重复处理：

delete tmp from(  
select row_num = row_number() over(partition by 字段，字段 order by 时间 desc)  
 from 表 where 时间> getdate()-1  
 ) tmp  
 where row_num > 1 
delete tmp from( 
select row_num = row_number() over(partition by 字段，字段 order by 时间 desc) 
 from 表 where 时间> getdate()-1 
 ) tmp 
 where row_num > 1

登录后复制免费讲解

方法二按照单一条件进行去重：

delete from 表 where 主键ID not in(  
select max(主键ID) from 表 group by 需要去重的字段 having count(需要去重的字段)>=1  
 ) 
delete from 表 where 主键ID not in( 
select max(主键ID) from 表 group by 需要去重的字段 having count(需要去重的字段)>=1 
 )

登录后复制免费讲解

注意：为提高效率如上两个方法都可以使用临时表， not in 中的表可以先提取临时表#tmp，

然后采用not exists来执行，为避免数量过大，可批量用Top控制删除量

delete top(2) from 表  
   where not exists (select 主键ID  
 from #tmp where #tmp.主键ID=表.主键ID)

登录后复制免费讲解

总结

以上所述是小编给大家介绍的使用SQL语句去掉重复的记录，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持！

您可能感兴趣的文章:

微信公众号搜索 “ 脚本之家 ” ，选择关注

程序猿的那些事、送书等活动等着你

原文链接：https://blog.csdn.net/deng214/article/details/80430109

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符，请将相关资料发送至 reterry123@163.com 进行投诉反馈，一经查实，立即处理！

SQLSERVER对索引的利用及非SARG运算符认识
SQL对筛选条件简称：SARG（search argument/SARG）当然这里不是说SQLSERVER的where子句，是说SQLSERVER对索引的利用,感兴趣的朋友可以了解下，或许本文的知识点对你有所帮助哈
2013-02-02
mssqlserver恢复ldf文件数据的方法
本文介绍mssqlserver怎么恢复ldf文件数据库，简单的来说，MDF文件是SQL server用来存放数据的数据库文件；LDF文件SQL server是日志文件，存放了对数据库进行的所有操作信息
2013-11-11
获取MSSQL 表结构中字段的备注、主键等信息的sql
本文为大家详细介绍下如何获取MSSQL 表结构中字段的备注、主键等信息，感兴趣的朋友可以参考下
2013-09-09
SQLSERVER 本地查询更新操作远程数据库的代码
SQLSERVER 本地查询更新操作远程数据库的代码,需要的朋友可以参考下
2012-11-11
去掉前面的0的sql语句（前导零，零前缀）
一个列的格式是单引号后面跟着4位的数字，比如’0003,’0120,’4333，我要转换成3,120,4333这样的格式，就是去掉单引号和前导的0，用以下语句就可以。
2011-08-08
用sql脚本创建sqlserver数据库范例语句
创建sqlserver数据库脚本范例，主要是熟悉下用sql语句创建数据库的代码。
2010-09-09
详解SQL Server 2016快照代理过程
给大家详细分析了SQL Server 2016 快照代理过程，并实例分析了其中需要注意的地方，跟着小编一下学习下吧。
2017-12-12
SqlServer将查询结果转换为XML和JSON
这篇文章主要介绍了SqlServer将查询结果转换为XML和JSON的相关资料,需要的朋友可以参考下
2017-07-07
SQL Server数据库基本概念、组成、常用对象与约束
这篇文章介绍了SQL Server数据库的基本概念、组成、常用对象与约束，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-03-03
实现SQL分页的存储过程代码
本文主要介绍了分页的存储过程所实现代码,使用存储过程可以提高效率与节约时间，需要的朋友可以参考下
2015-08-08

使用SQL语句去掉重复的记录【两种方法】

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

在线工具

高防CDN

万恒网络

常用在线小工具