Python实现Excel多表合并与自动化报表生成
作者:小庄-Python办公
案例背景与需求分析
场景说明:你是一名数据运营,每个月各个城市的分公司都会给你发一份当月的销售明细表,放在 sales_reports 文件夹下。
文件命名规则如:北京_202310.xlsx,上海_202310.xlsx,广州_202310.xlsx 等等。可能多达几十个文件。
你的老板提出了以下需求:
- 把这个文件夹里所有的 Excel 数据合并成一张大表。
- 清洗数据:剔除“销售额”为空的无效记录。
- 统计出各个城市的总销售额和订单数量。
- 将合并后的明细和统计结果导出到一个新的 Excel 中。
- (加分项)把统计结果的表头加粗,背景标黄。
如果手动操作,打开几十个文件复制粘贴极易出错,而且每个月都要重复劳动。现在,我们用Python一键搞定!
核心模块引入
除了 pandas 和 openpyxl,我们还需要用到 Python 的内置库 os 和 glob,它们擅长处理文件和路径。
import os import glob import pandas as pd from openpyxl import load_workbook from openpyxl.styles import Font, PatternFill
第一步:批量读取与合并数据
# 1. 定义文件夹路径
folder_path = "sales_reports"
# 2. 使用 glob 匹配文件夹下所有的 .xlsx 文件
# 假设当前目录下有 sales_reports 文件夹
file_paths = glob.glob(os.path.join(folder_path, "*.xlsx"))
# 用于存放每个读取出来的 DataFrame
df_list = []
print("开始批量读取文件...")
for file in file_paths:
print(f"正在读取: {file}")
# 读取 Excel
temp_df = pd.read_excel(file)
# 【小技巧】可以从文件名中提取城市名,作为新的一列加上去
# 比如从 "sales_reports\北京_202310.xlsx" 中提取 "北京"
basename = os.path.basename(file) # 获取文件名: 北京_202310.xlsx
city_name = basename.split("_")[0] # 以下划线分割,取第一部分: 北京
temp_df["文件来源城市"] = city_name
df_list.append(temp_df)
# 3. 使用 concat 将所有数据上下拼接合并
master_df = pd.concat(df_list, ignore_index=True)
print(f"合并完成,共计 {len(master_df)} 条数据。")
第二步:数据清洗与统计分析
# 1. 数据清洗:剔除销售额为空的行
master_df.dropna(subset=["销售额"], inplace=True)
# 2. 统计分析:按“文件来源城市”分组,计算总销售额和订单数
summary_df = master_df.groupby("文件来源城市").agg({
"销售额": "sum",
"订单号": "count" # 假设原始表有订单号这一列,计数即可代表订单数量
}).reset_index()
summary_df.rename(columns={"订单号": "订单总数", "销售额": "总销售额"}, inplace=True)
第三步:导出数据并使用 openpyxl 调整格式
为了同时写入多个Sheet并进行格式美化,我们分两步走:先用 pandas 保存基础数据,再用 openpyxl 打开进行格式渲染。
output_file = "月度汇总报告.xlsx"
# 1. pandas 写入数据
with pd.ExcelWriter(output_file) as writer:
summary_df.to_excel(writer, sheet_name="城市汇总", index=False)
master_df.to_excel(writer, sheet_name="所有明细", index=False)
# 2. openpyxl 修改格式
wb = load_workbook(output_file)
ws_summary = wb["城市汇总"]
# 定义样式:加粗,黄色背景
header_font = Font(bold=True)
header_fill = PatternFill(fill_type="solid", start_color="FFFF00")
# 遍历第一行(表头),设置样式
for cell in ws_summary[1]:
cell.font = header_font
cell.fill = header_fill
# 调整列宽使数据显示更完整
ws_summary.column_dimensions['A'].width = 15
ws_summary.column_dimensions['B'].width = 15
ws_summary.column_dimensions['C'].width = 15
# 保存最终结果
wb.save(output_file)
print("自动化报表生成完毕,格式已美化!")
方法补充
使用 Python 将 Excel 多表合并并生成自动化报表,主要分为四个阶段:批量读取 → 数据合并 → 数据清洗 → 报表生成与样式美化。
核心合并函数:concat 与 merge
在具体实现前,先快速了解 pandas 中两个核心合并函数的区别:
| 函数 | 用途 | 适用场景 |
|---|---|---|
pd.concat() | 垂直拼接(行追加)或水平拼接,把多个框架按轴堆叠在一起 | 多份格式相同的 Excel 文件需要上下拼接成大表(最常用) |
pd.merge() | 类似 SQL 的 JOIN,基于共同列进行数据关联 | 两个表需要根据某一列(如用户ID)进行左右匹配 |
对于大多数日常场景(合并同结构的多份报表),pd.concat() 是首选。
批量读取与垂直合并
基础版:合并多个同结构 Excel 文件
import pandas as pd
from pathlib import Path
folder_path = "./sales_reports"
# 用 Path.glob 批量获取所有 xlsx 文件
files = list(Path(folder_path).glob("*.xlsx"))
# 收集所有 DataFrame 到列表
dataframes = []
for file in files:
df = pd.read_excel(file)
# 【可选】从文件名提取标识列,如月份/城市
df["来源文件"] = file.stem # 提取文件名不含扩展名
dataframes.append(df)
# 一次性垂直合并,性能远优于逐行 append
merged = pd.concat(dataframes, ignore_index=True, sort=False)
# 保存结果
merged.to_excel("合并结果.xlsx", index=False)进阶版:兼容多场景的成熟方案
在实际生产中,直接逐文件读取有两个隐患:
- 丢数据风险:
pd.concat(dataframes, ignore_index=True)是标准做法。必须注意如果你用老写的df_total = df_total.append(df),新版本 pandas 会警告性能问题。 - 格式不统一:需要提前处理数据类型、排除损坏文件:
以下是带进度监控和错误容错的生产级脚本:
import pandas as pd
from pathlib import Path
from tqdm import tqdm # pip install tqdm
def merge_excels(folder_path, output_name="merged_output.xlsx"):
print(f"正在扫描: {folder_path}")
files = list(Path(folder_path).rglob("*.xlsx")) # 递归查找子文件夹中的文件
if not files:
print("未找到 Excel 文件")
return
print(f"发现 {len(files)} 个文件")
all_data = []
error_files = []
for file in tqdm(files, desc="处理进度"):
try:
df = pd.read_excel(file, dtype=str) # 统一先按字符串读取,避免类型冲突
all_data.append(df)
except Exception as e:
error_files.append((file.name, str(e))) # 记录错误文件
if not all_data:
print("没有成功读取任何文件")
return
# 一次性合并
merged = pd.concat(all_data, ignore_index=True, sort=False)
merged.to_excel(output_name, index=False)
print(f"合并完成!共 {len(merged)} 行。")
if error_files:
print(f"警告:{len(error_files)} 个文件读取失败")同工作簿内多 Sheet 合并
import pandas as pd
file_path = "同一个工作簿.xlsx"
sheets = pd.read_excel(file_path, sheet_name=None) # sheet_name=None 读取所有 sheet
all_dfs = []
for sheet_name, df in sheets.items():
all_dfs.append(df)
result = pd.concat(all_dfs, ignore_index=True)
result.to_excel("合并后.xlsx", index=False)数据清洗与预处理
从不同来源合并的数据通常很“脏”,必需先做四大基本清洗才能保证报表质量。
| 清洗任务 | 常用代码 | 注意事项 |
|---|---|---|
| 去重 | df.drop_duplicates(inplace=True) | 默认整行判断为重复才删除;可用 subset=["列名"] 指定列去重 |
| 删除缺行 | df.dropna(subset=["关键列"]) | 不强删全局,只删某列缺失的行;若某列如手机号为空的确实可删除 |
| 填充缺值 | df["列"].fillna(value) | 数字类用 0 或均值,分类用 "未知"「保持数据量」——切勿随意删掉太多行,会使统计基数错位 |
| 类型纠正 | df["日期"] = pd.to_datetime(df["日期"], errors="coerce") + 清理非标准条目 | 先转 datetime 能自动将非法日期转成 NaT;再检测是否为 NaT,把明显错误的行剔除,统一日期格式 |
【注意】所有清洗必须按去重 → 填缺 → 修类型 → 删不可用行的顺序:删完重复和空字段后再修正类型最省事。
水平关联合并
在合并“不同维度的信息”(例如销售明细 + 城市信息)时,使用 pd.merge():
# 左表:明细表,右表:城市分类映射表 merged_df = pd.merge(sales_detail, city_mapping, on="城市", how="left")
how 参数选择:
inner:两张表都匹配的记录才保留left:以左表为主,右表匹配不到的显示 NaNouter:保留所有记录(少用)
自动生成汇总与透 视表
# 1. 分组汇总
summary = merged.groupby("城市")["销售额"].agg(["sum", "mean", "count"]).reset_index()
# 2. 数据透视表
pivot = pd.pivot_table(merged, values="销售额", index="城市", columns="季度", aggfunc="sum", fill_value=0)导出与样式美化(pandas + openpyxl 两步走)
df.to_excel() 能保存数据,但导出的格式存在明显的样式缺陷:
| 问题 | 现象 | 原因 |
|---|---|---|
| 格式丢失 | 列宽显示异常、日期显示为数字、长文本被截断 | to_excel 不保留原表任何样式 |
| 索引误写 | 第一列出现 0, 1, 2...(当成真实数据列) | 忘记使用 index=False |
推荐做法:用 pandas 写数据,再用 openpyxl 加格式。
写入数据(pandas)
with pd.ExcelWriter("报表.xlsx") as writer:
merged.to_excel(writer, sheet_name="明细", index=False)
summary.to_excel(writer, sheet_name="汇总", index=False)美化格式(openpyxl)
from openpyxl import load_workbook
from openpyxl.styles import Font, PatternFill
wb = load_workbook("报表.xlsx")
ws = wb["汇总"] # 或 "明细"
# 设置表头样式:加粗 + 黄色背景
header_font = Font(bold=True)
header_fill = PatternFill(fill_type="solid", start_color="FFFF00") # 黄色
for cell in ws[1]: # 第一行是表头
cell.font = header_font
cell.fill = header_fill
# 调整列宽
for col in ws.columns:
max_length = 0
col_letter = col[0].column_letter
for cell in col:
try:
if len(str(cell.value)) > max_length:
max_length = len(str(cell.value))
except:
pass
adjusted_width = min(max_length + 2, 30)
ws.column_dimensions[col_letter].width = adjusted_width
wb.save("报表_美化.xlsx")总结
至此,我们的《Python办公Excel处理》五节课就全部结束了!回顾一下我们走过的路:
- 搭建了Python与自动化办公环境。
- 学会了用
openpyxl精细化控制Excel单元格的读写与外观格式。 - 掌握了
pandas进行单表的极速读取、条件筛选与排序。 - 进阶学习了
pandas的多表关联、合并以及强大的数据透 视表。 - 最终完成了包含批量文件读取、数据清洗、分组统计、多表页导出及自动化排版的终极实战案例。
只要你能把本课程的代码保存下来作为“模板”,在未来的工作中遇到类似需求时稍微修改一下字段名,就能帮你节省成百上千个小时的加班时间。
到此这篇关于Python实现Excel多表合并与自动化报表生成的文章就介绍到这了,更多相关Python Excel自动化生成报表内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
