Python pandas找出、删除重复的数据实例

 更新时间:2022年07月11日 16:42:52   作者:william_cheng666  
在面试中很可能遇到给定一个含有重复元素的列表,删除其中重复的元素,下面这篇文章主要给大家介绍了关于Python pandas找出、删除重复数据的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下

Python客栈送红包、纸质书

前言

当我们使用pandas处理数据的时候,经常会遇到数据重复的问题,如何找出重复数据进而分析重复原因,或者如何直接删除重复的数据是一个关键的步骤,pandas提供了很方便的方法:duplicated()和drop_duplicates()。

一、duplicated()

duplicated()可以被用在DataFrame的三种情况下,分别是pandas.DataFrame.duplicated、pandas.Series.duplicated和pandas.Index.duplicated。他们的用法都类似,前两个会返回一个布尔值的Series,最后一个会返回一个布尔值的numpy.ndarray。

DataFrame.duplicated(subset=None, keep=‘first’)

subset:默认为None,需要标记重复的标签或标签序列

keep:默认为‘first’,如何标记重复标签

  • first:将除第一次出现以外的重复数据标记为True
  • last:将除最后一次出现以外的重复数据标记为True
  • False:将所有重复的项都标记为True(不管是不是第一次出现)

Series.duplicated(keep=‘first’)

keep:与DataFrame.duplicated的keep相同

Index.duplicated(keep=‘first’)

keep:与DataFrame.duplicated的keep相同

例子:

1
2
3
4
5
6
7
import pandas as pd
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

    brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0 

0    False
1     True
2    False
3    False
4    False
dtype: bool

df.duplicated(keep='last')

0     True
1    False
2    False
3    False
4    False
dtype: bool

1
df.duplicated(keep=False)

0     True
1     True
2    False
3    False
4    False
dtype: bool

1
df.duplicated(subset=['brand'])

0    False
1     True
2    False
3     True
4     True
dtype: bool

关于Index的重复标记:

1
2
df = df.set_index('brand')
df

        style  rating
brand                
Yum Yum   cup     4.0
Yum Yum   cup     4.0
Indomie   cup     3.5
Indomie  pack    15.0
Indomie  pack     5.0

1
df.index.duplicated()
1
array([FalseTrue, FalseTrueTrue])

二、drop_duplicates()

与duplicated()类似,drop_duplicates()是直接把重复值给删掉。下面只会介绍一些含义不同的参数。

DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)

  • subset:与duplicated()中相同
  • keep:与duplicated()中相同
  • inplace:与pandas其他函数的inplace相同,选择是修改现有数据还是返回新的数据

Series.drop_duplicates()相比Series.duplicated()也是多了一个inplace参数,和上诉介绍一样,Index.drop_duplicates()与Index.duplicated()参数相同就不做赘述。下面是例子:

1
2
3
4
5
6
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

     brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

1
df.drop_duplicates()

     brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

1
2
3
df.drop_duplicates(inplace = True)
 
df

     brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

总结

有剩余无,pandas有很多好用的库,但是系统学下来很不现实,都是在实际项目中不断的发现、积累、记录下来。

到此这篇关于Python pandas找出、删除重复数据的文章就介绍到这了,更多相关pandas找出删除重复数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

您可能感兴趣的文章:
蓄力AI

微信公众号搜索 “ 脚本之家 ” ,选择关注

程序猿的那些事、送书等活动等着你

原文链接:https://blog.csdn.net/weixin_43887421/article/details/114926685

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 reterry123@163.com 进行投诉反馈,一经查实,立即处理!

相关文章

  • matplotlib 多个图像共用一个colorbar的实现示例

    matplotlib 多个图像共用一个colorbar的实现示例

    这篇文章主要介绍了matplotlib 多个图像共用一个colorbar的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-09-09
  • Python 实现简单的电话本功能

    Python 实现简单的电话本功能

    这篇文章主要介绍了Python 实现简单的电话本功能的相关资料,包括添加联系人信息,查找姓名显示联系人,存储联系人到 TXT 文档等内容,十分的细致,有需要的小伙伴可以参考下
    2015-08-08
  • Python装饰器实现函数运行时间的计算

    Python装饰器实现函数运行时间的计算

    这篇文章主要为大家详细介绍了Python函数运行时间的计算,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2022-02-02
  • Python subprocess模块学习总结

    Python subprocess模块学习总结

    从Python 2.4开始,Python引入subprocess模块来管理子进程,以取代一些旧模块的方法:如 os.system、os.spawn*、os.popen*、popen2.*、commands.*不但可以调用外部的命令作为子进程,而且可以连接到子进程的input/output/error管道,获取相关的返回信息
    2014-03-03
  • 基于python if 判断选择结构的实例详解

    基于python if 判断选择结构的实例详解

    代码执行结构为顺序结构、选择结构、循环结构。这篇文章主要介绍了python if 判断选择结构的相关知识,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-05-05
  • Python Flask框架开发之运用SocketIO实现WebSSH方法详解

    Python Flask框架开发之运用SocketIO实现WebSSH方法详解

    Socket.IO本是一个面向实时web应用的JavaScript库,现在已成为拥有众多语言支持的Web即时通讯应用的框架。这篇文章主要介绍了Python 运用SocketIO实现WebSSH方法
    2022-10-10
  • python入门之语句(if语句、while语句、for语句)

    python入门之语句(if语句、while语句、for语句)

    这篇文章主要介绍了python入门之语句,主要包括if语句、while语句、for语句的使用,需要的朋友可以参考下
    2015-01-01
  • python3中替换python2中cmp函数的实现

    python3中替换python2中cmp函数的实现

    这篇文章主要介绍了python3替换python2中cmp函数,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-08-08
  • Python实现PS滤镜的万花筒效果示例

    Python实现PS滤镜的万花筒效果示例

    这篇文章主要介绍了Python实现PS滤镜的万花筒效果,结合实例形式分析了Python基于skimage模块操作图片实现PS滤镜万花筒效果的原理与相关操作技巧,需要的朋友可以参考下
    2018-01-01
  • python实现批量修改图片格式和尺寸

    python实现批量修改图片格式和尺寸

    这篇文章主要为大家详细介绍了python实现批量修改图片格式和尺寸的方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-06-06

最新评论