python

关注公众号 jb51net

关闭
首页 > 脚本专栏 > python > Python操作PDF

Python操作PDF文档的主流库使用指南

作者:E-iceblue

PDF因其跨平台、格式固定的特性成为文档交换的标准,然而,由于其复杂的内部结构,程序化操作 PDF 一直是个挑战,本文主要为大家整理了Python操作PDF的三大主流库的使用,希望对大家有所帮助

PDF (Portable Document Format) 因其跨平台、格式固定的特性成为文档交换的标准。然而,由于其复杂的内部结构(文本流、图像、字体、矢量图形、注释、表单等都可能混合在一起),程序化操作 PDF 一直是个挑战

Python 生态提供了丰富的库来解决不同场景下的 PDF 操作需求。根据核心功能分类,介绍最流行和最实用的库,包括免费和付费的商业级选项,并分析它们的优缺点……本文将帮助你根据具体任务做出明智选择。

核心原则:没有“万能的钥匙”!选择哪个库取决于你想要做什么。主要就讲究一个门当户对和技术对口,不然就是事倍功半!

一、 基础操作

这些是最常见的 PDF 基础操作。

1.PyPDF2 (及其继任者 pypdf)

定位: 老牌经典,功能全面,社区庞大,是处理基础任务的首选

主要功能:

优点: 纯 Python 实现,安装简单 (pip install pypdf2),API 相对成熟,文档较全,适合入门和基础操作。

缺点:

1.文本提取能力较弱,对复杂布局和编码支持不佳。

它提取文本时,遇到复杂排版可能像初次面对迷宫——格式和位置信息?能给你就不错了,别要求太高!

2.编辑能力有限(难以修改现有内容结构,主要是页面级操作)。

原 PyPDF2 曾一度维护停滞 事实上,原 PyPDF2 官方仓库已归档不再维护,但其继任者 pypdfpip install pypdf)持续更新,故推荐使用pypdf替代旧版PyPDF2

适用场景: 简单的 PDF 合并、拆分、旋转、加密、解密、基础元数据读取和文本提取。

简单示例 (合并 - pypdf):

from pypdf import PdfMerger
    merger = PdfMerger()
    merger.append("file1.pdf")
    merger.append("file2.pdf")
    merger.write("combined.pdf")
    merger.close()

2.PyMuPDF / fitz

定位: 高性能、功能强大的瑞士军刀。底层基于强大的 MuPDF 库 (C/C++)。

主要功能:

优点:

缺点:

注意了!这个 AGPL 许可证要求:“如果你分发(包括 SaaS 形式)基于 AGPL 代码的软件,整个作品都必须以 AGPL 许可证发布”,也就是说如果你的项目包含使用了 AGPL 许可证的代码,那么你的一整个项目必须以 AGPL 许可证发布,并向用户提供源代码。 你当然可以通过付费来获得商业授权,但是如果你的项目资金不充裕,其它的替代方案将是你最好的选择。

适用场景: 对性能要求高、需要精确文本提取(带位置信息)、处理注释和表单、将 PDF 页面转为图片、进行高级搜索等复杂操作。如果你需要“一个库解决大部分问题”且能接受学习成本,它是最有力的竞争者。

简单示例 (精确文本提取):

import fitz  # PyMuPDF 的导入名是 fitz

doc = fitz.open("document.pdf")
page = doc[0]
text = page.get_text("dict")  # 获取包含丰富信息的字典结构
blocks = text["blocks"]
for block in blocks:
    if block["type"] == 0:  # 文本块
        for line in block["lines"]:
            for span in line["spans"]:
                print(
                    f"Text: '{span['text']}', Font: {span['font']},Size: {span['size']}, Position: {span['origin']}"
                )
doc.close()

3.Free Spire.PDF for Python

定位: Free Spire.PDF 是 E-iceblue 公司推出的商业级 PDF 处理库的免费版本。提供清晰规范的商业级 API 设计,是体验 Spire.PDF 核心功能与稳定性的理想起点。特别适合需要规范接口、企业级开发风格或特定高级功能的用户进行评估和轻量级应用。

主要功能:

优点:

免费版说明: 由于 Free Spire.PDF 是为了让用户零成本体验 Spire.PDF 的核心能力和 API 设计优势,故它适用于评估和轻量级自动化任务,而非大规模商业目的应用。它存在以下特性:

Free Spire.PDF 或许不是把万能的钥匙,但它可以准确地打开对应着自己的那几把锁——它在文档自动化报表等领域表现相当优秀。

适用场景:

对于更大规模、更复杂需求或无限制场景,Spire.PDF 商业版提供完整解决方案

简单示例:

from spire.pdf.common import *
from spire.pdf import *

# 创建PDF文档
pdf = PdfDocument()

# 添加页面
page = pdf.Pages.Add()

# 创建画刷和字体
brush = PdfSolidBrush(PdfRGBColor(Color.get_Black()))
font = PdfFont(PdfFontFamily.Helvetica, 12.0)

# 绘制文本
page.Canvas.DrawString("Hello from Free Spire.PDF!", font, brush, 50.0, 50.0)

# 保存文档
pdf.SaveToFile("output.pdf")
pdf.Close()

二、 精确文本提取

如果你主要关心的是从 PDF 中准确、结构化地提取文本内容,特别是那些包含表格、多栏布局的复杂 PDF:

1.pdfplumber

定位: 专注于精准文本提取和表格识别,提供直观的页面和对象模型。

主要功能:

优点:

缺点:

相比于其他库,pdfminer.six更像是图书馆的管理员,而不是大作家。

适用场景: OCR 后处理、需要精确文本位置信息的抽取(如发票、报告解析)、表格数据提取。是做文本和表格分析的首选

简单示例 (提取表格):

import pdfplumber

with pdfplumber.open("document_with_tables.pdf") as pdf:
    page = pdf.pages[0]
    table = page.extract_table()  # 提取页面上的第一个表格为二维列表
    for row in table:
        print(row)

    # 或者获取所有表格
    tables = page.extract_tables()

2.pdfminer.six

定位: pdfminer 的积极维护分支。是 PDF 文本提取领域的底层引擎

主要功能:

优点:

缺点:

适用场景: 需要深度控制解析过程、进行高级文本处理或作为其他库开发的基础。对于大多数终端用户,更推荐使用构建在它之上的 pdfplumber

直接用它就像让你用镊子、电烙铁、螺丝刀去组装一台超算——功能强大,但过程可能让你怀疑人生。

三、 表格数据提取

如果核心目标就是从 PDF 中高效准确地提取表格数据

1.camelot

定位: 专门为从 PDF 中提取表格数据而设计的库。

主要功能:

优点:

缺点:

两个模式都是偏科战神,建议让它们轮番上阵,比比效果再选择具体要用哪一个。

适用场景: 从 PDF 报告、论文、文件中抽取结构化表格数据。是表格提取任务的强力候选。

简单示例:

import camelot

# 提取第一页的所有表格
tables = camelot.read_pdf('document.pdf', pages='1')
print(tables[0].df)  # 将第一个表格转为 Pandas DataFrame

# 导出所有表格为 CSV
tables.export('tables.csv', f='csv')

2.tabula-py

定位: Python 对著名 Java 库 tabula-java 的封装。也是专门用于表格提取

主要功能:

优点:

缺点:

适用场景: 需要利用 tabula-java 能力的表格提取。如果环境允许安装 Java,也是一个不错的选择。

配置 Java 环境如同请外援:虽然效果显著,但过程非常麻烦和繁琐,还容易出问题(尤其是在多处部署的时候)。

四、 生成 PDF(报告、文档)

需要从头开始创建新的 PDF 文档(如生成报告、发票、动态文档):

1.ReportLab(reportlab)

定位: Python 生态中生成 PDF 的事实标准。功能强大且成熟。

主要功能:

优点:

缺点:

1.学习曲线非常陡峭,尤其是 platypus 框架的布局逻辑需要时间掌握。

学它就像爬山——只有登顶陡峭的山峰,才能看见壮丽的风景

2.纯创建库,几乎没有读取或修改现有 PDF 的能力。

适用场景: 需要程序化生成高度定制化、复杂布局的 PDF 报告、文档、票据等。是专业 PDF 生成的首选

简单示例 (使用 canvas画文字):

from reportlab.pdfgen import canvas

c = canvas.Canvas("hello.pdf")
c.drawString(100, 750, "Hello, World!")  # 位置 (x, y) 单位是点 (1/72 英寸)
c.save()

2.fpdf2(PyFPDF 的现代版)

定位: 轻量级、简单易用的 PDF 生成库。灵感来源于 PHP 的 FPDF。

主要功能:

优点:

缺点:

适用场景: 需要快速、简单地生成不太复杂的 PDF 文档(如简单的文本报告、带图片的文档、基础表格)。是追求简单性和快速开发的绝佳选择。

简单示例:

from fpdf import FPDF

pdf = FPDF()
pdf.add_page()
pdf.set_font("Arial", size=12)
pdf.cell(200, 10, txt="Hello, World!", ln=True, align='C')
pdf.output("simple_doc.pdf")

五、 PDF 转换

需要将 PDF 转换为其他格式(如 Word, HTML, 图片)或 从其他格式生成 PDF

1.pdf2docx

定位: 专门将 PDF 转换为 .docx文件 (Microsoft Word)

主要功能:

尽力保留原始 PDF 的文本、格式、表格、图片和布局到 Word 文档中。

优点:

缺点:

适用场景: 需要将 PDF 内容导入 Word 进行进一步编辑

简单示例:

from pdf2docx import Converter

cv = Converter('input.pdf')
cv.convert('output.docx')
cv.close()

2.PyMuPDF(fitz)

再次上榜!它也能很好地 PDF 页面转换为图片 (PNG, JPG )

import fitz

doc = fitz.open("document.pdf")
page = doc[0]
pix = page.get_pixmap(matrix=fitz.Matrix(2, 2))  # 缩放因子 2x
pix.save("page0.png")
doc.close()

3.pdfminer.six

可用于将 PDF 转换为 HTML  XML 等文本格式。

4.专用命令行工具 + subprocess

对于复杂的转换(如高质量 PDF->HTML),有时调用成熟的命令行工具如 pdftohtml (Poppler 工具集的一部分) 或 wkhtmltopdf (HTML->PDF) 通过 Python 的 subprocess 模块来执行,可能是更可靠或更高质量的选择。

特别注意:转换格式就像把钝刀放上角磨机——是磨利了,但难免有损耗(格式丢失)。

六、 商业解决方案

如果需要更稳定、功能更全面的 PDF 操作库(尤其是企业级应用),商业库通常是更好的选择。它们通常提供更完善的格式支持和更高的转换质量,并有专业技术支持。唯一的不足通常是价格,但在它们提供的价值面前总是十分值得。

Spire.PDF for Python 商业版

定位: Spire.PDF for Python 是 E-iceblue 提供的全功能商业级PDF解决方案,在免费版基础上解除限制并增强专业能力。

核心优势:

数限制:支持任意页数的PDF处理与转换

格式转换增强

级编辑能力

业级支持

适用场景:

ReportLab Plus

定位: ReportLab开源库的商业增强版,专注于PDF生成领域。

核心优势:

适用场景:

实事求是的讲,商业级的库往往具有较大的前期投入,但相对应的功能也会更丰富,支持也会更有保障,而当你使用它们创造了价值,这点付出就会显得非常值得了。

总结与选型建议

主要方案对比

你的主要需求推荐库关键考虑
基础操作 (合并/拆分/旋转/加密)pypdf (原 PyPDF2 继任者)简单易用,纯 Python
PyMuPDF (fitz)高性能,功能更全
Free Spire.PDF for Python商业级API,稳定规范,商业特色功能
精确文本提取 (带位置/布局信息)pdfplumber高精度,分析友好,基于 pdfminer.six
PyMuPDF (fitz)速度快,信息丰富
表格数据提取camelot专精表格,输出 DataFrame
tabula-py (依赖 Java)成熟 tabula-java 的包装
pdfplumber内置不错的表格提取功能
生成新 PDF (报告/文档)ReportLab功能强大专业,但学习曲线陡峭
fpdf2轻量简单,快速上手
ReportLab PlusReportLab商业版,提供额外支持
处理注释/表单/书签/渲染图片PyMuPDF (fitz)功能全面
PDF -> Word (.docx)pdf2docx专注转换,效果较好
PDF -> 图片PyMuPDF (fitz)高质量,高性能
PDF -> HTML/XMLpdfminer.six, PyMuPDF, 或调用 pdftohtml
需要“一个库解决大部分问题”PyMuPDF (fitz)性能高,功能覆盖广,注意 AGPL 协议
Spire.PDF for Python 商业版企业级支持、无限制处理、合规授权

商业方案对比

特性Spire.PDF for PythonReportLab Plus
核心定位全功能PDF处理解决方案高级PDF生成工具
核心优势读取/编辑/生成/转换四位一体行业领先的PDF生成能力
PDF处理能力完整文档操作(合并/拆分/加密等)仅限生成新文档
文本提取精度高保真提取(保留格式和位置)不提供文本提取功能
表格处理动态表格生成+现有表格提取高级表格生成(仅限新建)
格式转换PDF↔Word/Excel/HTML/图像不支持
数字签名/加密完整支持(含时间戳证书)基础支持
现有文档修改深度内容编辑(文本/图像替换)不支持
跨平台支持Windows/Linux/macOS/国产系统跨平台
学习曲线中等(.NET风格API)陡峭(复杂布局系统)
授权模式永久授权、订阅纯订阅制
性价比优势单次投入解决全流程需求需搭配其他库完成完整工作流

选型建议:

选择 Spire.PDF 当你需要:

选择 ReportLab Plus 当你需要:

技术提示:Spire.PDF的独特价值在于将文档处理、转换和生成整合在统一API下,减少多库集成复杂度。

重要提示

1.PDF 终点格式:

PDF 本质上是为设计的,不是为编辑设计的。程序化修改现有 PDF 的内容结构通常非常困难且容易出错。大部分库的“编辑”能力都局限于页面级操作(增删页、旋转)或添加覆盖层(水印、注释)。

2.扫描件/图像型 PDF:

3.库的活跃度与授权:

再次强调! AGPL 许可证要求:“如果你分发(包括 SaaS 形式)基于 AGPL 代码的软件,整个作品都必须以 AGPL 许可证发布”,也就是说如果你的项目包含使用了 AGPL 许可证的代码,那么你的一整个项目必须以 AGPL 许可证发布,并向用户提供源代码

4.组合使用:

根据复杂需求,可能需要组合使用多个库。例如:用 pypdf 合并文件 -> 用 pdfplumber 提取关键文本和表格 -> 用 ReportLab 生成包含提取结果的新报告 PDF。

5.企业级需求解决方案

Free Spire.PDF 旨在让用户体验 Spire.PDF 的核心功能和 API 设计风格。对于评估和轻量级应用(单次处理 ≤ 10 页,格式转换 ≤ 3 页)完全足够。

如需处理更大文档或解锁全部高级功能,E-iceblue 提供功能完整、无页数限制、包含专业技术支持的 Spire.PDF for Python 业版,具备以下企业级特性:

6.商业支持选择

对于需要长期稳定运行的企业系统,商业库提供更可靠的技术支持和持续更新。Spire.PDF商业版以其全面的功能覆盖和合理的授权模式,特别适合需要处理多种PDF任务的中大型企业。

7.先试再定:

对于你的特定文档和任务,最好的方法是用候选库写个小脚本实际测试一下效果。不同库对同一份“复杂”PDF 的处理结果可能有显著差异。

到此这篇关于Python操作PDF文档的主流库使用指南 的文章就介绍到这了,更多相关Python操作PDF内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

您可能感兴趣的文章:
阅读全文