Python pandas找出、删除重复的数据实例
前言
当我们使用pandas处理数据的时候,经常会遇到数据重复的问题,如何找出重复数据进而分析重复原因,或者如何直接删除重复的数据是一个关键的步骤,pandas提供了很方便的方法:duplicated()和drop_duplicates()。
一、duplicated()
duplicated()可以被用在DataFrame的三种情况下,分别是pandas.DataFrame.duplicated、pandas.Series.duplicated和pandas.Index.duplicated。他们的用法都类似,前两个会返回一个布尔值的Series,最后一个会返回一个布尔值的numpy.ndarray。
DataFrame.duplicated(subset=None, keep=‘first’)
subset:默认为None,需要标记重复的标签或标签序列
keep:默认为‘first’,如何标记重复标签
- first:将除第一次出现以外的重复数据标记为True
- last:将除最后一次出现以外的重复数据标记为True
- False:将所有重复的项都标记为True(不管是不是第一次出现)
Series.duplicated(keep=‘first’)
keep:与DataFrame.duplicated的keep相同
Index.duplicated(keep=‘first’)
keep:与DataFrame.duplicated的keep相同
例子:
1 2 3 4 5 6 7 | import pandas as pd df = pd.DataFrame({ 'brand' : [ 'Yum Yum' , 'Yum Yum' , 'Indomie' , 'Indomie' , 'Indomie' ], 'style' : [ 'cup' , 'cup' , 'cup' , 'pack' , 'pack' ], 'rating' : [ 4 , 4 , 3.5 , 15 , 5 ] }) df |
brand style rating
0 Yum Yum cup 4.0
1 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0
0 False
1 True
2 False
3 False
4 False
dtype: bool
df.duplicated(keep='last')
0 True
1 False
2 False
3 False
4 False
dtype: bool
0 True
1 True
2 False
3 False
4 False
dtype: bool
0 False
1 True
2 False
3 True
4 True
dtype: bool
关于Index的重复标记:
style rating
brand
Yum Yum cup 4.0
Yum Yum cup 4.0
Indomie cup 3.5
Indomie pack 15.0
Indomie pack 5.0
二、drop_duplicates()
与duplicated()类似,drop_duplicates()是直接把重复值给删掉。下面只会介绍一些含义不同的参数。
DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)
- subset:与duplicated()中相同
- keep:与duplicated()中相同
- inplace:与pandas其他函数的inplace相同,选择是修改现有数据还是返回新的数据
Series.drop_duplicates()相比Series.duplicated()也是多了一个inplace参数,和上诉介绍一样,Index.drop_duplicates()与Index.duplicated()参数相同就不做赘述。下面是例子:
1 2 3 4 5 6 | df = pd.DataFrame({ 'brand' : [ 'Yum Yum' , 'Yum Yum' , 'Indomie' , 'Indomie' , 'Indomie' ], 'style' : [ 'cup' , 'cup' , 'cup' , 'pack' , 'pack' ], 'rating' : [ 4 , 4 , 3.5 , 15 , 5 ] }) df |
brand style rating
0 Yum Yum cup 4.0
1 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0
brand style rating
0 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0
brand style rating
0 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0
总结
有剩余无,pandas有很多好用的库,但是系统学下来很不现实,都是在实际项目中不断的发现、积累、记录下来。
到此这篇关于Python pandas找出、删除重复数据的文章就介绍到这了,更多相关pandas找出删除重复数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
微信公众号搜索 “ 脚本之家 ” ,选择关注
程序猿的那些事、送书等活动等着你
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 reterry123@163.com 进行投诉反馈,一经查实,立即处理!
相关文章
matplotlib 多个图像共用一个colorbar的实现示例
这篇文章主要介绍了matplotlib 多个图像共用一个colorbar的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧2020-09-09Python Flask框架开发之运用SocketIO实现WebSSH方法详解
Socket.IO本是一个面向实时web应用的JavaScript库,现在已成为拥有众多语言支持的Web即时通讯应用的框架。这篇文章主要介绍了Python 运用SocketIO实现WebSSH方法2022-10-10python入门之语句(if语句、while语句、for语句)
这篇文章主要介绍了python入门之语句,主要包括if语句、while语句、for语句的使用,需要的朋友可以参考下2015-01-01
最新评论