python

关注公众号 jb51net

关闭
首页 > 脚本专栏 > python > Python Excel转PDF

Python基于OpenPyxl实现Excel转PDF并精准控制分页

作者:天天进步2015

在 Python 自动化办公(RPA)的场景中,我们经常需要自动生成带有图表或图片的 Excel 报表,并最终将其导出为 PDF,下面我们就来聊聊如何使用OpenPyxl实现这一功能并精准控制分页吧

在 Python 自动化办公(RPA)的场景中,我们经常需要自动生成带有图表或图片的 Excel 报表,并最终将其导出为 PDF。

但你是否遇到过这种情况:代码跑得很欢,生成的 Excel 也很完美,但一转成 PDF,精美的图表刚好被切成了两半,一半在第一页页脚,另一半在第二页页眉?

这不仅难看,还显得非常不专业。今天,我们就来聊聊如何利用 openpyxl 中的 Break 对象,精准控制分页,让你的报表“指哪打哪”。

核心原理:手动管理分页符

Excel 本身是基于单元格(Grid)流式布局的,图片是悬浮在单元格之上的层(Layer)。默认情况下,Excel 的自动分页逻辑只看单元格高度,完全不管上面有没有压着图片。

要解决这个问题,我们需要“强行”告诉 Excel:“这里不仅是图片结束的地方,也是这一页结束的地方。”

这就需要用到 openpyxl.worksheet.pagebreak.Break

简单来说,我们的策略是:在插入图片之前和之后,分别插入一个 Row Break(行分页符),给图片划定一个独立的“安全区”。

实战代码

我们需要用到 openpyxl 库。如果你还没有安装,请执行:

pip install openpyxl pillow

1. 基础实现:不跨页的核心逻辑

下面的代码演示了如何在一个 Excel 中插入图片,并确保每张图片都独占一页(或者至少保证图片头部是从新的一页开始)。

from openpyxl import Workbook
from openpyxl.drawing.image import Image
from openpyxl.worksheet.pagebreak import Break
from openpyxl.utils import get_column_letter

def create_pdf_friendly_report():
    wb = Workbook()
    ws = wb.active
    ws.title = "图片不跨页示例"

    # 假设我们有一组图片路径
    image_paths = ["chart1.png", "chart2.png", "chart3.png"] # 请确保目录下有这些图片,或替换为实际路径
    
    current_row = 1
    
    for idx, img_path in enumerate(image_paths):
        try:
            img = Image(img_path)
        except FileNotFoundError:
            print(f"找不到图片: {img_path},跳过")
            continue

        # --- 核心步骤 1: 插入前置分页符 (Before Break) ---
        # 如果不是第一张图,我们在图片开始前强制换页,保证图片从页首开始
        if idx > 0:
            # 注意:Break 的 id 对应的是行索引。
            # 在 current_row - 1 处打断,意味着 current_row 将是新的一页的开始
            page_break = Break(id=current_row - 1)
            ws.row_breaks.append(page_break)

        # --- 步骤 2: 放置图片 ---
        # 定位单元格,例如 A1, A20, A40...
        cell_location = f"A{current_row}"
        ws.add_image(img, cell_location)
        
        # 添加一些描述文字(可选)
        ws[cell_location] = f"图表 {idx + 1}: 销售数据分析"

        # --- 步骤 3: 计算图片占用的行数 ---
        # 这是一个估算。Excel默认行高约 15 像素(20 units)。
        # 我们需要根据图片高度计算它大概跨越了多少行,以便更新 current_row
        # img.height 是像素值
        rows_to_skip = int(img.height / 20) + 2 # +2 是留一点余量
        
        # --- 核心步骤 4: 插入后置分页符 (After Break) ---
        # 计算图片结束的行
        end_row = current_row + rows_to_skip
        
        # 在图片结束后强制换页(如果你希望一页只有一张图)
        # 如果你希望紧接着放文字,这步可以省略,只依赖“前置分页符”即可
        break_after = Break(id=end_row)
        ws.row_breaks.append(break_after)

        # 更新下一张图的起始位置
        current_row = end_row + 1

    # 保存结果
    wb.save("完美分页报表.xlsx")
    print("Excel 生成完毕,请打开打印预览查看分页效果。")

if __name__ == "__main__":
    # 为了演示,请先准备几张名为 chart1.png 等的图片,或者修改代码中的路径
    create_pdf_friendly_report()

2. 代码解析

1.from openpyxl.worksheet.pagebreak import Break: 这是主角。它是 OpenPyxl 用来标记分页符的类。

2.ws.row_breaks.append(...): 工作表对象有一个 row_breaks 列表。我们将创建好的 Break 对象添加进去即可。

注意: 还有一个 col_breaks,那是用于横向分页的(列宽不够时),但处理图片跨页通常使用的是行分页。

3.Break(id=row_index): 这里的 id 是关键。

OpenPyxl 的逻辑是:当你把 id 设为 10,Excel 会在第 10 行之后不仅是一条分界线,第 11 行将成为下一页的第一行。

进阶技巧:动态计算与流式布局

上面的代码是“一页一张图”的暴力解法。如果你希望文字和图片混排,仅在图片即将跨页时才插入分页符,该怎么办?

这就需要计算“当前页剩余高度”。但这在纯 Python 端很难精确做到,因为 Excel 的渲染受打印机驱动、页边距设置影响很大。

推荐的工程化方案:

不要去计算“能不能塞得下”,而是防御性分页

def insert_atomic_block(ws, img_path, title, start_row):
    """
    插入一个原子块,并强制在块之前分页
    """
    # 1. 强制分页(开启新的一页)
    if start_row > 1:
        ws.row_breaks.append(Break(id=start_row - 1))
    
    # 2. 写入标题
    ws.cell(row=start_row, column=1, value=title)
    
    # 3. 插入图片
    img = Image(img_path)
    ws.add_image(img, f"A{start_row + 1}")
    
    # 4. 返回下一个可用的行号
    # 估算高度:标题1行 + 图片高度/20 + 余量
    height_rows = 1 + int(img.height / 20) + 2
    return start_row + height_rows

总结

利用 openpyxl.worksheet.pagebreak.Break,我们不再是被动接受 Excel 的默认打印行为,而是掌握了主动权。

下次做自动化报表时,加上这几行代码,让你的交付成果更加专业!

到此这篇关于Python基于OpenPyxl实现Excel转PDF并精准控制分页的文章就介绍到这了,更多相关Python Excel转PDF内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

您可能感兴趣的文章:
阅读全文