Pandas去除重复项函数详解drop_duplicates()
作者:ckSpark
这篇文章主要介绍了Pandas去除重复项函数drop_duplicates(),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
drop_duplicates函数用途
pandas中的drop_duplicates()函数
可以通过SQL中关键字distinct的用法来理解
根据指定的字段对数据集进行去重处理
drop_duplicates()函数的具体参数
用法:
DataFrame.drop_duplicates(subset=None, keep=‘first', inplace=False)
参数说明:
参数 | 说明 |
---|---|
subset | 根据指定的列名进行去重,默认整个数据集 |
keep | 可选{‘first’, ‘last’, False},默认first,即默认保留第一次出现的重复值,并删去其他重复的数据,False是指删去所有重复数据。 |
inplace | 是否对数据集本身进行修改,默认False |
drop_duplicates用法举例
根据指定字段进行去重
保留第一次出现的数据
import pandas as pd #创建数据框 df=pd.DataFrame({ 'a':[1,2,4,3,3,3,4], 'b':[2,3,3,4,4,5,3] }) print('去重前:\n',df) #根据字段a进行去重,保留第一次出现的数据 df.drop_duplicates(['a'],keep='first',inplace=True) print('去重后:\n',df) >>> 去重前: a b 0 1 2 1 2 3 2 4 3 3 3 4 4 3 4 5 3 5 6 4 3 去重后: a b 0 1 2 1 2 3 2 4 3 3 3 4
总结
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。