Python实现PDF表格转CSV的完整方法与代码解析

2026-06-02 11:50:29 作者：LAYONTHEGROUND

PDF 格式因其版式固定性而广泛用于文档交换,但也导致结构化数据（如表格）难以直接抽取,本文将介绍如何使用免费库 Free Spire.PDF for Python 解析 PDF 表格,并结合 Python 内置 csv 标准库完成数据导出,有需要的可以了解下

PDF 格式因其版式固定性而广泛用于文档交换，但也导致结构化数据（如表格）难以直接抽取。尽管存在多种解析方案（如基于文本坐标启发式或 OCR），但对于具有明确边框和单元格边界的表格，专用表格提取器能提供更高的准确度。本文将介绍如何使用免费库 Free Spire.PDF for Python 解析 PDF 表格，并结合 Python 内置 csv 标准库完成数据导出。

一、环境准备

1. 依赖库安装

本次实现依赖 PDF 解析组件与 Python 原生库，执行以下命令安装免费版 PDF 解析组件：

pip install Spire.Pdf.Free

2. 技术说明

核心依赖：spire.pdf.free 负责识别、提取 PDF 中的表格结构与单元格数据；
文件导出：使用 Python 内置 csv、os 标准库完成目录创建、CSV 写入，无需额外第三方数据处理库；
适用场景：支持单页/多页 PDF、单页多表格场景，可自动按页面+表格序号拆分输出文件；
兼容性：导出 UTF-8 编码 CSV，可直接用 Excel、WPS、Pandas 等工具读取。

二、核心实现思路

初始化 PDF 文档对象，加载本地 PDF 文件；
创建表格提取器，绑定已加载的 PDF 文档；
遍历 PDF 所有页面，逐页提取当前页面内的全部表格；
针对每个表格，逐行、逐列读取单元格文本，并做基础文本清洗；
自动创建输出目录，将单张表格数据写入独立 CSV 文件，文件按页面、表格编号命名；
执行资源释放操作，释放 PDF 文档占用的内存与文件流。

三、完整代码实现

该示例完整还原逐页、逐表提取逻辑，自动创建输出目录，每个表格单独生成 CSV 文件，附带文本清洗逻辑：

from spire.pdf import PdfDocument, PdfTableExtractor
import csv
import os

# 初始化PDF文档对象并加载文件
pdf = PdfDocument()
pdf.LoadFromFile("Sample.pdf")

# 创建PDF表格提取器
extractor = PdfTableExtractor(pdf)

# 定义输出目录，目录不存在则自动创建
output_root = "Tables"
os.makedirs(output_root, exist_ok=True)

# 遍历PDF每一页
for page_index in range(pdf.Pages.Count):
    # 提取当前页面下所有表格
    tables = extractor.ExtractTable(page_index)
    
    # 遍历当前页面中的每一个表格
    for table_index, table in enumerate(tables):
        table_data = []
        
        # 读取表格所有行
        row_total = table.GetRowCount()
        for row in range(row_total):
            row_data = []
            # 读取当前行所有列
            col_total = table.GetColumnCount()
            for col in range(col_total):
                # 提取单元格文本，去除换行符、首尾空白字符
                cell_text = table.GetText(row, col).replace("\n", "").strip()
                row_data.append(cell_text)
            table_data.append(row_data)
        
        # 拼接CSV文件路径，按 页面-表格 编号命名
        csv_name = f"Page{page_index + 1}-Table{table_index + 1}.csv"
        csv_path = os.path.join(output_root, csv_name)
        
        # 写入CSV文件，指定UTF-8编码，newline避免多余空行
        with open(csv_path, "w", newline="", encoding="utf-8") as csvfile:
            writer = csv.writer(csvfile)
            writer.writerows(table_data)
        print(f"已导出：{csv_path}")

# 释放PDF文档资源
pdf.Dispose()
print("所有表格导出完成")

四、代码解析

4.1 核心类说明

PdfDocument：PDF 文档操作主类，LoadFromFile() 用于加载本地 PDF 文件，Pages.Count 获取文档总页数，Dispose() 用于释放文件流、内存等资源，批量处理文件时必须调用，防止内存堆积。
PdfTableExtractor：专用表格提取器，依赖已加载的 PdfDocument 对象初始化；ExtractTable(page_index) 接收页码索引，返回当前页面内所有表格对象集合。

4.2 表格数据读取方法

GetRowCount()：获取当前表格的总行数；
GetColumnCount()：获取当前行的总列数；
GetText(row, col)：根据行、列索引读取单元格原始文本。

4.3 文本清洗逻辑

replace("\n", "").strip() 是实用的预处理逻辑：

去除单元格内的换行符，避免 CSV 格式错乱；
清除文本首尾空格、制表符，保证数据整洁。

4.4 CSV 写入关键配置

encoding="utf-8"：统一使用 UTF-8 编码，从根源避免中文乱码；
newline=""：Python csv 库专属配置，禁止自动插入空行，保证 CSV 格式标准；
os.makedirs(..., exist_ok=True)：自动创建多级目录，exist_ok=True 表示目录已存在时不抛出异常。

4.5 文件命名规则

文件采用 Page页码-Table表格序号.csv 命名，可直观区分数据来源，方便后续文件管理与溯源。

五、拓展应用方向

批量处理多文件：结合 os.listdir() 遍历指定文件夹，批量读取目录下所有 PDF，循环调用封装函数实现全量表格导出。

数据二次加工：导出 CSV 后结合 pandas 库，实现数据筛选、去重、统计、格式转换等数据分析操作。

表头单独处理：识别表格第一行为表头，写入 CSV 时单独指定表头行，提升数据可读性。

过滤空表格：在代码中增加数据判空逻辑，跳过无有效内容的空白表格，减少无效文件生成。

六、知识扩展

要将PDF表格完美地转换成CSV，关键是找到匹配的解析方法。目前，camelot-py、tabula-py和pdfplumber是解决这类需求最核心的三个Python库，它们各有侧重，也各有适用的场景。

根据你的PDF文件类型，选择最适合的代码并运行即可。

1. camelot-py：最适合有边框的表格

这种方法对有明确线条的表格提取效果最好，安装简单，但依赖于OpenCV：

pip install camelot-py[cv]

下面的代码演示了最简洁的用法，只需几行就能提取表格并导出为CSV。

import camelot
# 读取PDF并提取表格，flavor='lattice'适用于有边框的表格
# 可以指定pages='all'来提取所有页面
tables = camelot.read_pdf('your_table.pdf', pages='1-3', flavor='lattice')
# 将所有提取的表格导出为多个CSV文件（或一个ZIP压缩包）
tables.export('output.csv', f='csv', compress=False)
# 查看第一个提取的表格
print(tables[0].df)
# 如果只想保存第一个表格
# tables[0].to_csv('single_table.csv')

2. pdfplumber：更通用和灵活

pdfplumber 在灵活性和易用性之间取得了很好的平衡，处理各种风格的表格。

pip install pdfplumber

对于大多数情况，extract_table() 方法已经足够好用。但如果遇到样式复杂的表格，extract_tables() 配合 table_settings 参数能帮你更好地控制提取逻辑。

import csv
import pdfplumber
with pdfplumber.open("your_table.pdf") as pdf:
    # 假设表格在第一页
    page = pdf.pages[0]
    # 智能提取表格（自动检测）
    # 如果效果不佳，可以尝试指定table_settings参数
    # table_settings = {"vertical_strategy": "lines", "horizontal_strategy": "lines"}
    # table = page.extract_table(table_settings=table_settings)
    table = page.extract_table()
    if table:
        with open("output.csv", "w", newline='', encoding='utf-8') as f:
            writer = csv.writer(f)
            writer.writerows(table)

pdfplumber 也支持一次性提取页面中的所有表格。

with pdfplumber.open("your_table.pdf") as pdf:
    page = pdf.pages[0]
    tables = page.extract_tables()
    for i, table in enumerate(tables):
        if table:
            with open(f"table_{i+1}.csv", "w", newline='', encoding='utf-8') as f:
                writer = csv.writer(f)
                writer.writerows(table)

3. tabula-py：快速且功能全面

tabula-py 是Java版Tabula的Python封装。使用前需安装Java 8+环境并将其添加到系统PATH环境变量中。

pip install tabula-py

它的API设计非常直接，一行命令就能完成PDF到CSV的转换，对新手很友好。

import tabula
# 提取PDF中所有表格，并保存为CSV文件
tabula.convert_into("your_table.pdf", "output.csv", output_format="csv", pages='all')
# 提取表格到DataFrame列表，以便进行数据处理
# df_list = tabula.read_pdf("your_table.pdf", pages='all')
# print(df_list[0])  # 打印第一个表格

七、总结

以上 Python 示例演示了如何轻松实现 PDF 表格提取并导出为 CSV 文件。通过逐页扫描、单元格清理和标准 CSV 写入，可构建稳定可靠的数据抽取流程。在实际集成中，开发者应当关注表格边框依赖、页面限制以及资源释放等关键因素，并根据文档特性调整文本清洗规则。该方法不依赖任何中间格式或额外解析库，代码结构清晰，适用于自动化数据处理管道。

以上就是Python实现PDF表格转CSV的完整方法与代码解析的详细内容，更多关于Python PDF表格转CSV的资料请关注脚本之家其它相关文章！