关于数据分析Pandas的Series用法总结
作者:信橙则灵
Series
Series是线性的数据结构,带有标签的一维数组,轴标签统称为索引,数据和标签之间存在联系
一、导入Series
from pandas import Series
如果没有安装pandas的话,使用pip install pandas 进行导入
二、创建Series
1、使用列表或者numpy进行创建,默认索引为0到N-1的整数型索引
a = Series([list], index=[list])
备注:
index: 设置Series的index,index列表的元素个数跟数据list的元素个数要对应起来
示例:
没有index的话,默认index为0到N-1的整数型索引
obj = Series([1,2,3,4]) obj
自定义 index:
obj2 = Series([1,2,3,4],index=[‘a',‘b',‘c',‘d']) obj2
numpy创建跟list创建是相同的道理
2、使用字典创建(推荐使用)
创建方法为:
a = Series({Dict})
示例:
obj = Series({‘a':1,‘b':2, ‘c':3, ‘d':4}) obj
总结: 比较推荐使用方法2,是因为方法2中没有对应index(index中的元素个数要跟数据个数相同)的限制,这样方法2就会比较自由
创建成功之后,下一步就是取值,Series可通过索引和切片的方法进行取值
三、Series的索引和切片
索引是为了获取具体的值,而切片则是为了获取一定范围内的值
1、显式索引与切片
显式索引
s.loc[‘索引名称'] #使用index中元素的名称作为索引值
示例: 取单个值:
obj = Series({‘a':10,‘b':12,‘c':17}) obj.loc[‘a'] # 也可省略loc,即obj.loc[‘a']
取多个值:
obj.loc[[‘a',‘c']] # 或 obj[[‘a',‘c']]
显式切片:
obj = Series({‘a':10,‘b':12,‘c':17}) obj[‘a':‘c'] # 或 obj[‘a':‘c']
2、隐式索引与切片
隐式索引
s.iloc[] #使用index中元素对应的下标作为索引值
示例: 取单个值:
obj = Series({‘a':10,‘b':12,‘c':17}) obj.iloc[0] # 或 obj[0]
取多个值:
obj.iloc[[0, 1]] # 或 obj[[0, 1]]
隐式切片:
obj = Series({‘a':10,‘b':12,‘c':17}) obj.iloc[0:2] # 或 obj[0:2]
学了这个显式和隐式的操作,可能大家有一些迷糊,那么进行一下总结:
- 显式索引就是通过索引值获取对应索引的结果(loc可省略)
隐式索引就是通过索引的下标获取对应索引的结果(.loc可省略) - 切片和取多个值的格式要注意区分:
切片的格式为: [:] 即 一个[], 中间的为冒号,相当于list中的切片
取多值的格式为:[[,]] 即 两个[], 中间的分隔为逗号
- 注意切片操作中,显式索引和隐式索引的区别
显式索引是通过索引值获取索引的结果,两边索引值对应的值都能取到 左闭右闭
隐式索引为通过索引的下标获取的结果,只能取到左边索引下标对应的值,右边索引下标对应的值取不到,同python中的list切片 左闭右开
- 其实在Series中,有没有loc或者iloc好像没什么区别,但这并不说明loc和iloc就没有用,个人觉得它更有意义的是在DataFrame当中使用,而且,知道loc和iloc能阅读明白他人的代码,避免见到后不认识
四、Series的基本概念
1、通过head(),tail()快速查看Series对象的样式
1)先创建个测试数据
s = pd.Series(np.random.randint(1,10,size=(10,)))
2)获取数据的前五行数据
s.head() # 默认是前五行数据,可自定义行数,比如想要十行的话,s.head(10)
tail()是展示数据的后五行,也可自定义行数, 例如:s.tail(10) 即 展示数据的后10行
2、isnull(),notnull()函数检测缺失数据
缺失数据在Series中一般表示为: NaN(not a number)
1)创建测试数据
obj = Series([10,4,np.nan])
2)使用notnull()查看空值,为空则返回Flase,不为空则返回True
notnull = pd.notnull(obj)
3)根据isnull()返回的结果,取不为空的数据
obj[notnull]
isnull()跟notnull()的用法相同,只不过是,isnull()为空返回True,notnull()为空返回False
3、扩展
可以把Series看成一个定长的有序字典 可以通过shape,size,index,values等得到series的属性
五、Series的运算
1、 适用于numpy的数组运算也适用于Series
这个需要仔细了解numpy的运算才行,这个就不扩展了,大家有兴趣的话,可上网上搜索下相关知识点
2、Series之间的运算
首先说下Series之间常用的运算:
add加 sub减 mul乘 div除
1)相同索引的数据进行运算, 如果索引不对应,则补NaN
①:测试数据
A = pd.Series([2,4,6],index=[0,1,2]) B = pd.Series([1,3,5],index=[1,2,3]) display(A,B)
②: 加运算
A.add(B)
在A和B数据中,index(索引)中的1、2是相同的,所以对应索引的数据进行运算,而其他索引对应不上的则没有相加的数值,所以值只能为NaN
扩展
出现NaN的原因是,两个Series中,索引相关的只对应不上,但我现在不想让这些对应不上的为NaN,那么有什么办法解决这个问题呢?
fill_value: 对空值赋值
A.add(B,fill_value=0)
fill_value的值为0时,则是,将索引不对应的补充为0, 如果自定义为,ill_value的值为1,则,将索引不对应的补充为1
到此这篇关于关于数据分析Pandas的Series用法总结的文章就介绍到这了,更多相关Pandas的Series用法内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!