python

关注公众号 jb51net

关闭
首页 > 脚本专栏 > python > Pandas DataFrame nan值

Pandas中DataFrame中的nan值处理

作者:craftsman2020

本文主要介绍了Pandas中DataFrame中的nan值处理,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

1. 方法简介

1.1 DataFrame.dropna()

DataFrame.dropna()方法的作用:是删除含用空值或缺失值得行或列。
语法为:dropna(axis=0,how=‘any’,thresh=None,subset=None,inplace=False)
参数:

1.2 .DataFrame.fillna()

语法为:fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)
参数:

2. 案例

import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(32).reshape(8, 4), columns=list("abcd"))
df.loc[1, 'a'] = 2
df.loc[1, 'c'] = 2.0
df.loc[6, 'c'] = np.nan
df.loc[3, 'c'] = 10
df.loc[3, ['c', 'd']] = np.nan
df["year"] = '2023'
df["date"] = ['08-25','08-26','08-27','08-28','08-29','08-30','08-31','09-01']
# 合并数据
df["ydate"] =df["year"].map(str) +"-"+ df["date"].map(str) 
df["高温"] = ['15°',  '16°', '20°', '19°', '20°',  '22°', '24°', '23°']
df["低温"] = ['10°',  '11°', '18°', '17°', '10°',  '18°', '20°', '17°']
df["空气质量"] = ['优', '良', '优', '优', '差', '良', '优', np.nan]
print(df)

    a   b     c     d  year   date       ydate   高温   低温 空气质量
0   0   1   2.0   3.0  2023  08-25  2023-08-25  15°  10°    优
1   2   5   2.0   7.0  2023  08-26  2023-08-26  16°  11°    良
2   8   9  10.0  11.0  2023  08-27  2023-08-27  20°  18°    优
3  12  13   NaN   NaN  2023  08-28  2023-08-28  19°  17°    优
4  16  17  18.0  19.0  2023  08-29  2023-08-29  20°  10°    差
5  20  21  22.0  23.0  2023  08-30  2023-08-30  22°  18°    良
6  24  25   NaN  27.0  2023  08-31  2023-08-31  24°  20°    优
7  28  29  30.0  31.0  2023  09-01  2023-09-01  23°  17°  NaN

2.1 删除全部为NaN的行

df1 = df.copy()
df1.loc[8, :] = np.nan
df1

       a       b       c       d     year       date       ydate       高温     低温     空气质量
0     0.0     1.0     2.0     3.0     2023     08-25     2023-08-25     15°     10°     优
1     2.0     5.0     2.0     7.0     2023     08-26     2023-08-26     16°     11°     良
2     8.0     9.0     10.0     11.0     2023     08-27     2023-08-27     20°     18°     优
3     12.0     13.0     NaN     NaN     2023     08-28     2023-08-28     19°     17°     优
4     16.0     17.0     18.0     19.0     2023     08-29     2023-08-29     20°     10°     差
5     20.0     21.0     22.0     23.0     2023     08-30     2023-08-30     22°     18°     良
6     24.0     25.0     NaN     27.0     2023     08-31     2023-08-31     24°     20°     优
7     28.0     29.0     30.0     31.0     2023     09-01     2023-09-01     23°     17°     NaN
8     NaN     NaN     NaN     NaN     NaN     NaN     NaN     NaN     NaN     NaN 

df1 = df.dropna(axis=0, how='all')
df1
abcdyeardateydate高温低温空气质量
00.01.02.03.0202308-252023-08-2515°10°
12.05.02.07.0202308-262023-08-2616°11°
28.09.010.011.0202308-272023-08-2720°18°
312.013.0NaNNaN202308-282023-08-2819°17°
416.017.018.019.0202308-292023-08-2920°10°
520.021.022.023.0202308-302023-08-3022°18°
624.025.0NaN27.0202308-312023-08-3124°20°
728.029.030.031.0202309-012023-09-0123°17°NaN

2.2 删除包含NaN的行

df2 = df.dropna(axis=0, how='any')
df2
abcdyeardateydate高温低温空气质量
00.01.02.03.0202308-252023-08-2515°10°
12.05.02.07.0202308-262023-08-2616°11°
28.09.010.011.0202308-272023-08-2720°18°
416.017.018.019.0202308-292023-08-2920°10°
520.021.022.023.0202308-302023-08-3022°18°

2.3 删除包含NaN的列

df3 = df.dropna(axis=1, how='any')
df3
abyeardateydate高温低温
001202308-252023-08-2515°10°
125202308-262023-08-2616°11°
289202308-272023-08-2720°18°
31213202308-282023-08-2819°17°
41617202308-292023-08-2920°10°
52021202308-302023-08-3022°18°
62425202308-312023-08-3124°20°
72829202309-012023-09-0123°17°

2.4 删除全部为NaN的列

df4 = df.copy()
df4["unknow"] = np.nan
df4
abcdyeardateydate高温低温空气质量unknow
0012.03.0202308-252023-08-2515°10°NaN
1252.07.0202308-262023-08-2616°11°NaN
28910.011.0202308-272023-08-2720°18°NaN
31213NaNNaN202308-282023-08-2819°17°NaN
4161718.019.0202308-292023-08-2920°10°NaN
5202122.023.0202308-302023-08-3022°18°NaN
62425NaN27.0202308-312023-08-3124°20°NaN
7282930.031.0202309-012023-09-0123°17°NaNNaN
df4 = df4.dropna(axis=1, how='all')
df4
abcdyeardateydate高温低温空气质量
0012.03.0202308-252023-08-2515°10°
1252.07.0202308-262023-08-2616°11°
28910.011.0202308-272023-08-2720°18°
31213NaNNaN202308-282023-08-2819°17°
4161718.019.0202308-292023-08-2920°10°
5202122.023.0202308-302023-08-3022°18°
62425NaN27.0202308-312023-08-3124°20°
7282930.031.0202309-012023-09-0123°17°NaN

2.5 删除指定列是NaN的行

删除指定某一列有nan,这样即可定位到所在行的index,然后对该index进行drop操作即可

df[np.isnan(df['c'])].index #定位某一列是否有nan

输出:

Index([3, 6], dtype='int64')

# 直接drop对应indx即可删除该行
df5 = df.drop(df[np.isnan(df['c'])].index)
df5
abcdyeardateydate高温低温空气质量
0012.03.0202308-252023-08-2515°10°
1252.07.0202308-262023-08-2616°11°
28910.011.0202308-272023-08-2720°18°
4161718.019.0202308-292023-08-2920°10°
5202122.023.0202308-302023-08-3022°18°
7282930.031.0202309-012023-09-0123°17°NaN

2.6 删除指定的两列都是空的行

df6 = df.dropna(axis=0, how='all', subset=['c', 'd']) 
df6
abcdyeardateydate高温低温空气质量
0012.03.0202308-252023-08-2515°10°
1252.07.0202308-262023-08-2616°11°
28910.011.0202308-272023-08-2720°18°
4161718.019.0202308-292023-08-2920°10°
5202122.023.0202308-302023-08-3022°18°
62425NaN27.0202308-312023-08-3124°20°
7282930.031.0202309-012023-09-0123°17°NaN

2.7 筛选出NaN的数据

df_nan = df[df['d'].isna()]
df_nan
abcdyeardateydate高温低温空气质量
31213NaNNaN202308-282023-08-2819°17°

2.8 筛选出非NaN的数据

df_notnan = df[~df['d'].isna()]
df_notnan
abcdyeardateydate高温低温空气质量
0012.03.0202308-252023-08-2515°10°
1252.07.0202308-262023-08-2616°11°
28910.011.0202308-272023-08-2720°18°
4161718.019.0202308-292023-08-2920°10°
5202122.023.0202308-302023-08-3022°18°
62425NaN27.0202308-312023-08-3124°20°
7282930.031.0202309-012023-09-0123°17°NaN

2.9 替换NaN值

df9 = df.fillna('')  # 将nan替换为''
df9
abcdyeardateydate高温低温空气质量
0012.03.0202308-252023-08-2515°10°
1252.07.0202308-262023-08-2616°11°
28910.011.0202308-272023-08-2720°18°
31213202308-282023-08-2819°17°
4161718.019.0202308-292023-08-2920°10°
5202122.023.0202308-302023-08-3022°18°
6242527.0202308-312023-08-3124°20°
7282930.031.0202309-012023-09-0123°17°

2.10 多条件筛选

nan_df = df[(df['高温'].str.len() <= 2) | (df['空气质量'].isna())]
nan_df
abcdyeardateydate高温低温空气质量
7282930.031.0202309-012023-09-0123°17°NaN

总结

到此这篇关于Pandas中DataFrame中的nan值处理的文章就介绍到这了,更多相关Pandas DataFrame nan值内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

您可能感兴趣的文章:
阅读全文