pandas批量拆分与合并Excel文件的实现示例
作者:风华浪浪
本文介绍了Pandas中基于整数位置的iloc和基于标签的loc方法进行数据索引和切片的操作,并将大Excel文件拆分合并,具有一定的参考价值,感兴趣的可以了解一下
一、Pandas 进行索引和切片的iloc、loc方法
iloc是基于整数位置进行索引和切片的方法
它允许您使用整数来访问 DataFrame 或 Series 中的特定行和列
import pandas as pd
# 创建示例 DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})
# 使用 iloc 访问特定行和列
value = df.iloc[0, 1] # 获取第一行、第二列的值
row = df.iloc[1] # 获取第二行的所有列
col = df.iloc[:, 2] # 获取第三列的所有值
slice_df = df.iloc[1:3, 0:2] # 获取第二行到第三行、第一列到第二列的切片
print(value) # 输出: 4
print(row) # 输出: A 2\nB 5\nC 8\nName: 1, dtype: int64
print(col) # 输出: 0 7\n1 8\n2 9\nName: C, dtype: int64
print(slice_df)
# 输出:
# A B
# 1 2 5
# 2 3 6
loc是基于标签进行索引和切片的方法。
它允许您使用标签来访问 DataFrame 或 Series 中特定的行和列
import pandas as pd
# 创建示例 DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}, index=['a', 'b', 'c'])
# 使用 loc 访问特定行和列
value = df.loc['a', 'B'] # 获取索引为 'a',列为 'B' 的值
row = df.loc['b'] # 获取索引为 'b' 的所有列
col = df.loc[:, 'C'] # 获取列标签为 'C' 的所有值
slice_df = df.loc['b':'c', 'A':'B'] # 获取索引为 'b' 到 'c',列标签为 'A' 到 'B' 的切片
print(value) # 输出: 4
print(row) # 输出: A 2\nB 5\nC 8\ndtype: int64
print(col) # 输出: a 7\nb 8\nc 9\nName: C, dtype: int64
print(slice_df)
# 输出:
# A B
# b 2 5
# c 3 6
二、Pandas批量拆分与合并Excel文件
将一个大Excel等分,拆成多个Excel
将多个小Excel合并并标记来源
import pandas as pd df_path = '/Users/python/Desktop/means/ml-25m/ratings.csv' df_source = pd.read_csv(df_path) df_source.head() userId movieId rating timestamp 0 1 296 5.0 1147880044 1 1 306 3.5 1147868817 2 1 307 5.0 1147868828 3 1 665 5.0 1147878820 4 1 899 3.5 1147868510
df.index 查看索引信息 总共行数1000209 RangeIndex(start=0, stop=1000209, step=1)
df.shape 查看总的行列信息 总共1000209行 4列 (1000209, 4) 获取总的行数信息 total_row_count = df.shape[0] total_row_count 1000209
二、 将一个大的Excel 等分拆成多个Excel
计算拆分后每个excel的行数 (可能除不尽 取余 + 1)
user_names = ["zhangsan", "lisi", "wanger", 'mazi']
split_size = total_row_count // len(user_names)
if total_row_count % len(user_names) != 0:
split_size += 1
拆分多个dataframe
for idx, user_name in enumerate(user_names):
begin = idx * split_size
end = (idx + 1 ) * split_size
df_sub = df_source.iloc[begin:end]
df_subs.append((idx, user_name, df_sub))
将多个datafame 写入csv
for idx, user_name, df_sub in df_subs:
file_name = f'/Users/python/Desktop/means/ml-25m/ratings_{user_name}.csv'
df_sub.to_csv(file_name, index=False)
三、 将多个Excel合并成一个大的Excel
1. 便利文件夹,得到要合并的Excel 文件列表 2. 分别去读到dataframe, 给每个df添加一列用于标记来源 3. 使用pd.concat 进行批量合并 4. 将合并到的dataframe 输入到excel
读取要合并的excel,并添加username 列
df_list = []
fnames = ['ratings_mazi.csv', 'ratings_zhangsan.csv', 'ratings_lisi.csv','ratings_wanger.csv','ratings_mazi.csv']
for fname in fnames:
file_name = f'/Users/python/Desktop/means/ml-25m/{fname}'
df_split = pd.read_csv(file_name)
username = fname.replace("ratings_", '').replace(".csv", '')
df_split['username'] = username
df_list.append(df_split)
使用pd.concat 进行合并 df_merged = pd.concat(df_list) df_merged.shape 查看总的行列信息 总共1000209行 4列 df_merged.head() 查看合并后的前几行信息 userId movieId rating timestamp username 0 5109 508 3.0 840577637 mazi 1 5109 519 2.0 840577227 mazi 2 5109 524 2.0 840577346 mazi 3 5109 527 3.0 840576285 mazi 4 5109 529 3.0 840576680 mazi df_merged['username'].value_counts() 查看username 的取值种类 username mazi 500106 zhangsan 250053 lisi 250053 wanger 250053 Name: count, dtype: int64
将合并后的dataframe输入到excel中
df_merged.to_csv('/Users/python/Desktop/means/ml-25m/ratings_merged.csv', index=False)
到此这篇关于pandas批量拆分与合并Excel文件的文章就介绍到这了,更多相关pandas批量拆分与合并Excel内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
