pandas提取数据的6种方法汇总
作者:小琳爱分享
这篇文章主要介绍了pandas提取数据的6种方法汇总,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
pandas提取数据的6种方法
pandas是Python数据分析必备工具,它有强大的数据清洗能力,往往能用非常少的代码实现较复杂的数据处理。
五个方面:
- 比较运算:、<、>、>=、<=、!=
- 范围运算:between(left,right)
- 字符筛选:str.contains(pattern或字符串,na=False)
- 逻辑运算:&(与)、|(或)、not(取反)
- 比较函数:eq, ne, le, lt, ge, gt(相当于,=!,<=,<,>=,>)
apply和isin函数
编码使用的是Jupyter Notebook,可支持网页编辑,会在后续的文章中写使用方法~~~
首先读取数据
import pandas as pd data=pd.read_excel('超市运营数据模板.xlsx') print(data)
data.dtypes可以获取数据类型
1.筛选性别为’男’的数据
①第一种方法,用比较运算符‘==’:
data[data.性别=='男']
②第二种方法,用比较函数’eq’:
data[data['性别'].eq('男')]
2.筛选入学年份小于等于2017的数据
①第一种方法,用比较运算符‘<=’:
data[data.入学年份<=2017]
②第二种方法,用比较函数’le’:
data[data['入学年份'].le(2017)]
3.筛选入学年份大于2017的数据
data[data.入学年份>2017]
②第二种方法,用比较函数’ge’:
data[data['入学年份'].gt(2017)]
4.筛选除姓名’王五’外的数据
①第一种方法,用比较运算符‘!=’:
data[data.姓名!='王五']
②第二种方法,用比较函数’ne’:
data[data['姓名'].ne('王五')]
!!!数据更改!!!
5.筛选2018年9月的入学的学生
data['入学年份']=data["入学年份"].astype('datetime64') #如果已为日期格式则此步骤可省略 print(data['入学年份']) import datetime s_date = datetime.datetime.strptime('2018-08-31', '%Y-%m-%d').date() #起始日期 e_date = datetime.datetime.strptime('2018-10-01', '%Y-%m-%d').date() #结束日期
①第一种方法,用逻辑运算符号’>’ ‘<‘和’&’:
Pandasdatetime64[ns]不能直接与datetime.date相比,需要用pd.Timestamp进行转化
data[(data.入学年份>pd.Timestamp(s_date))&(data.入学年份<pd.Timestamp(e_date))]
②第二种,用比较函数’gt’‘lt’和’&’:
data[(data['入学年份'].lt(pd.Timestamp(e_date)))&(data['入学年份'].gt(pd.Timestamp(s_date)))]
③第三种,用apply函数实现:
id_a=data.入学年份.apply(lambda x: x.year ==2018 and x.month==9) data[id_a]
④第四种,用between函数实现:
id_b=data.入学年份.between(pd.Timestamp(s_date),pd.Timestamp(e_date)) data[id_b]
6.筛选“班级”包含’1503’的数据
①第一种,用contains函数:
data['班级']=data['班级'].values.astype('str') #将该列转换为字符数据类型 id_c=data.班级.str.contains('1503',na=False) data[id_c]
②第二种,用isin函数:
id_i=data.类别ID.isin(['000']) #接受一个列表 data[id_i] #isin函数搞不定,因为它只能判断该列中元素是否在列表中
总结
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。