python

关注公众号 jb51net

关闭
首页 > 脚本专栏 > python > Python Pandas删除指定数据

Python Pandas实现删除指定行/列数据

作者:lucky科技汪

这篇文章主要为大家详细介绍了如何通过Python Pandas实现删除指定行或列数据,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下

dropna() 方法过滤任何含有缺失值的行

pandas.DataFrame里,如果一行数据有任意值为空,则过滤掉整行,这时候使用dropna()方法是合适的。下面的案例,任意列只要有一个为空数据,则整行都干掉。但是我们常常遇到的情况,是根据一个指标(一列)数据的情况,去过滤行数据,类似Excel里面的过滤漏斗,怎么办?

>>> import pandas as pd
>>> data = pd.DataFrame([[1.,6.5,3.],[1.],[],[6.5,3.]],index=list('abcd'),columns=list('def'))
>>> data
     d    e    f
a  1.0  6.5  3.0
b  1.0  NaN  NaN
c  NaN  NaN  NaN
d  6.5  3.0  NaN
>>> data.dropna() #任意列只要有一个为空数据,则整行都干掉
     d    e    f
a  1.0  6.5  3.0

dropna() 其他参数解析

我们引入了dropna()方法的其他参数。

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

参数说明:

axis:

how: 与axis配合使用

thresh: axis中至少有thresh个非缺失值,否则删除。比如 axis=0,thresh=10:标识如果该行中非缺失值的数量小于10,将删除改行

subset: list,在哪些列中查看是否有缺失值

inplace: 是否在原数据上操作。如果为真,返回None,否则返回新的copy,去掉了缺失值

>>> data.dropna(axis=0,subset=['e'])  #axis=0,删除行,在subset的列中进行查看
     d    e    f
a  1.0  6.5  3.0
d  6.5  3.0  NaN

方法二:替换并删除,Python pandas 如果某列值为空,过滤删除所在行数据

如上面的data数据,如果希望“e”列数值为空NaN时,删除对应行也就是“b、c”行数据,保留其他行,用dropna()似乎比较麻烦。 这个时候的思路是:

>>> data['e']=data['e'].fillna(999999)
>>> find_index=data[(data.e==999999)].index.tolist()
>>> find_index
['b', 'c']
>>> data.drop(find_index)
     d    e    f
a  1.0  6.5  3.0
d  6.5  3.0  NaN

drop()函数

在 pandas 中,删除指定的行或列最常用的方法是 drop() 函数。此外,还可以通过 delpop、条件筛选等方式实现。下面分别介绍。

删除列

1. 使用 drop 删除列(推荐)

import pandas as pd
df = pd.DataFrame({'A': [1,2,3], 'B': [4,5,6], 'C': [7,8,9]})
# 删除单列(不修改原 DataFrame,返回新对象)
df_new = df.drop('B', axis=1)
# 删除多列
df_new = df.drop(['B', 'C'], axis=1)
# 直接修改原 DataFrame(inplace=True)
df.drop('B', axis=1, inplace=True)

2. 使用 columns 参数(更直观)

df.drop(columns=['B', 'C'], inplace=True)

3. 使用 del 语句

del df['B']   # 直接删除列,修改原 DataFrame

4. 使用 pop 方法(会返回删除的列)

removed_col = df.pop('B')   # 删除列并返回 Series

删除行

1. 按行索引标签删除

df = pd.DataFrame({'A': [1,2,3], 'B': [4,5,6]}, index=['x', 'y', 'z'])

# 删除单行
df.drop('y', inplace=True)

# 删除多行
df.drop(['x', 'z'], inplace=True)

2. 按位置删除(行号

# 删除第 2 行(索引为 1)
df.drop(df.index[1], inplace=True)

# 删除前 2 行
df.drop(df.index[:2], inplace=True)

3. 按条件删除行(最常用)

df = pd.DataFrame({'年龄': [18, 25, 30, 22], '分数': [85, 92, 78, 88]})

# 删除年龄大于 25 的行
df_filtered = df[df['年龄'] <= 25]   # 保留条件为 True 的行

# 或者用 drop + 条件索引
df.drop(df[df['年龄'] > 25].index, inplace=True)

删除含缺失值的行/列

1. 删除所有含 NaN 的行

df.dropna()                 # 任何一行有 NaN 就删除
df.dropna(how='all')        # 仅当一行全为 NaN 才删除
df.dropna(thresh=2)         # 至少保留 2 个非 NaN 值

2. 删除所有含 NaN 的列

df.dropna(axis=1)

注意事项

inplace=True 会直接修改原 DataFrame,否则返回新对象。

删除行/列时,如果指定的索引/列名不存在,会报错。可以添加 errors='ignore' 避免:

df.drop('不存在的列', axis=1, errors='ignore')

条件删除更推荐使用布尔索引(df[条件]),而不是 drop,因为可读性更好。

到此这篇关于Python Pandas实现删除指定行/列数据的文章就介绍到这了,更多相关Python Pandas删除指定数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

您可能感兴趣的文章:
阅读全文