在Pandas中更改DataFrame中的值
作者:程旭员
这篇文章主要介绍了在Pandas中更改DataFrame中的值方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
Pandas如何更改DataFrame中的值
1.构造DataFrame
import pandas as pd import numpy as np dates = pd.date_range('20200315', periods = 5) df = pd.DataFrame(np.arange(20).reshape((5,4)), index = dates, columns = ['A','B','C','D']) print(df) #输出 A B C D 2020-03-15 0 1 2 3 2020-03-16 4 5 6 7 2020-03-17 8 9 10 11 2020-03-18 12 13 14 15 2020-03-19 16 17 18 19
2.运用loc、iloc更改值
我们可以利用索引或者标签确定需要修改值的位置。
df.loc['20200318','C'] = 20200318 #标签索引 df.iloc[2,3] = 20200318 #数字索引 print(df) #输出 A B C D 2020-03-15 0 1 2 3 2020-03-16 4 5 6 7 2020-03-17 8 9 10 20200318 2020-03-18 12 13 20200318 15 2020-03-19 16 17 18 19
3.运用条件判断更改值
如果现在的判断条件是这样, 我们想要更改B中的数, 而更改的位置是取决于 C的. 对于C大于6的位置. 更改B在相应位置上的数为0.
df.B[df.C>6] = 0 #C字段中大于6的那些行在B字段中全都设为0 print(df) #输出 A B C D 2020-03-15 0 1 2 3 2020-03-16 4 5 6 7 2020-03-17 8 0 10 20200318 2020-03-18 12 0 20200318 15 2020-03-19 16 0 18 19
4.在DataFrame中添加一列
如果对整列做批处理, 加上一列 ‘E’, 并将 E 列全改为 NaN, 如下:
df['E'] = np.nan print(df) #输出 A B C D E 2020-03-15 0 1 2 3 NaN 2020-03-16 4 5 6 7 NaN 2020-03-17 8 9 10 11 NaN 2020-03-18 12 13 14 15 NaN 2020-03-19 16 17 18 19 NaN
用上面的方法也可以加上 Series 序列(但是长度必须对齐)。
df['F'] = pd.Series([11,22,33,44,55],index = pd.date_range('20200315',periods = 5)) print(df) #输出 A B C D E F 2020-03-15 0 1 2 3 NaN 11 2020-03-16 4 5 6 7 NaN 22 2020-03-17 8 9 10 11 NaN 33 2020-03-18 12 13 14 15 NaN 44 2020-03-19 16 17 18 19 NaN 55
pandas Dataframe批量修改值
在使用dataframe的时候 有时候会碰到需要批量修改数据的时候,今天主要说明两种情况
一.使用iloc对某几行某几列进行全部修该
二.对数据进行判定后,相互+/-/*某个数,使用内置函数
1.使用iloc对数据进行批量修改
使用iloc最简单的就是将数据批量修改为某个特定的值以下是我随便写入的数据
现在将[‘d’,‘e’]列,[2,3,4]行的数据全部修改为0
import pandas as pd data = pd.read_excel('some_chaneg.xlsx') data1 = data data1.iloc[2:5,3:] = 0 data1
.iloc用法[],先行后列,并且都是不包含最后一个元素,例如取[2,3,4]就是[2:5],列同样遵循此规则
2.对数据进行判定后,相互+/-/某个数
*第一种方法:使用内置函数where函数
Series.where(cond, other=nan, inplace=False, axis=None, level=None, errors='rais',...)
解释下来就是如果cond为真,则保持原来的值,否则替换为other,这里的cond和other参数由我们自己写入控制
# data2为data数据的一部分 data2 = data.iloc[0:,1:] print(data2) data2.where(data2>25, data2+5,inplace=True)
选取data2中<25的数据,全部加上5
第二种方法:使用mask函数
mask和where刚好相反
mask(cond, other=nan)
- where:替换条件(condition)为False处的值
- mask:替换条件(condition)为True处的值
还是以data2举例
data2.mask(data2<25, data2+5, inplace=True)
第三种方法:replace函数
replace可以替换文本值,也可以使用字典替换多个值,
也可以使用正则表达式嵌套方法,替换很多不同的值
替换文本值
# 替换文本值 data3 = data data3.replace('wange', 'sheng', inplace=True) data3
替换多个值
将所有的0和1互换
# 替换多个值# 将所有的0和1互换data3.replace({<!-- -->1:0,0:1},inplace=True) # 替换多个值 # 将所有的0和1互换 data3.replace({1:0,0:1},inplace=True)
运用正则表达式
将所有含英文字母的全部变成Anonymous
# 切记使用正则表达式的时候,一定要添加上regex=True data3.replace('[a-zA-Z]+','Anonymous',regex=True,inplace=True)
总结
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。