使用Pandas操作Excel文件的技巧与方法分享
作者:郝同学的测开笔记
Pandas
Pandas 是一个强大的 Python 库,用于数据分析和处理。它提供了丰富的数据结构和函数,可以方便地进行数据操作和分析。在处理 Excel 数据时,Pandas 提供了简单而强大的工具,可以帮助用户轻松地读取、写入和操作 Excel 文件。
安装 Pandas
要使用,当然第一步就是安装。可以使用 pip 命令进行安装:
pip install pandas
读取 Excel 文件
使用 Pandas 读取 Excel 文件非常简单。假设有一个名为 data.xlsx
的 Excel 文件,包含了一些数据。可以使用 Pandas 的 read_excel
函数来读取这个文件:
import pandas as pd df = pd.read_excel('data.xlsx')
想要指定sheet,可以这样写
import pandas as pd df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
想要读取指定的列,可以这样写
import pandas as pd df = pd.read_excel('data.xlsx', sheet_name='Sheet1', converters={"曲目序号":str})
读取到文件后,如何获取数据呢?
获取前5行
df.head()
获取指定的单行
df.iloc[0].values
获取指定的多行
df.iloc[[1,2]].values
获取指定的行列
df.iloc[1,0]
获取指定的多行多列值
df.loc[[1,2],['教材id','教材名']].values
获取所有行的指定列
df.loc[:,['教材id','教材名']].values
获取行号
df.index.values
获取列名
df.columns.values
获取指定列的值
df['教材id'].values
操作 Excel 数据
一旦数据被读取到 Pandas 的 DataFrame 中,就可以使用 Pandas 提供的各种函数和方法来操作数据。例如,可以对数据进行筛选、排序、计算等操作。
案例:计算平均值
假设 Excel 文件中包含了一个名为 sales
的列,记录了销售额。可以使用 Pandas 计算这一列的平均值:
# 计算销售额的平均值 average_sales = df['sales'].mean() print('Average sales:', average_sales)
案例:筛选数据
假设需要筛选出销售额大于 1000 的数据:
# 筛选销售额大于 1000 的数据 high_sales = df[df['sales'] > 1000] print('High sales:', high_sales)
写入 Excel 文件
除了读取,Pandas 也可以将数据写入 Excel 文件。可以使用 to_excel
方法将 DataFrame 中的数据写入到 Excel 文件中:
# 将数据写入 Excel 文件 df.to_excel('output.xlsx', index=False)
实战:读取数据再写入表格
df = pd.read_excel('data.xlsx') test_data=[] for i in df.index.values: row_data=df.loc[i,['教材id','教材旧id','教材名','教材封面','作曲家','出版社','曲目id','曲目名','曲目序号','难度','finale文件','xml文件','png文件开始','png文件结束','mp3文件']].to_dict() test_data.append(row_data) pd.DataFrame.from_dict(test_data).to_excel("score.xlsx")
这段代码,我们通过df.index.values
来获取行号的索引,并对其进行遍历,然后使用df.loc
来获取每一行指定的数据,并利用to_dict转成字典,最后再调用to_excel
写入文件。
最后
这些只是使用 Pandas 进行 Excel 数据处理的基本用法,当然Pandas 非常强大,可以满足各种数据处理需求,包括数据清洗、转换、分析等。以后工作中遇到再慢慢摸索更高级的功能
以上就是使用Pandas操作Excel的技巧与方法分享的详细内容,更多关于Pandas操作Excel的资料请关注脚本之家其它相关文章!