首页 > 脚本专栏 > python > Python DuckDB处理超大Excel

Python使用DuckDB秒级处理超大Excel文件的终极指南

2026-02-26 08:25:30 作者：小庄-Python办公

你是否经历过这样的绝望：双击打开一个 500MB 的 Excel 文件,看着鼠标光标变成旋转的圆圈,内存占用飙升,最后屏幕变白显示未响应,本文将手把手教你如何利用 DuckDB 轻松读取、查询和分析超大 Excel 文件,需要的朋友可以参考下

告别 Excel 卡死：使用 DuckDB 秒级处理超大 Excel 文件的终极指南

你是否经历过这样的绝望：双击打开一个 500MB 的 Excel 文件，看着鼠标光标变成旋转的圆圈，内存占用飙升，最后屏幕变白显示“未响应”？

对于数据分析师和工程师来说，处理超大 Excel 文件（超过 100 万行或体积巨大的 .xlsx）一直是噩梦。传统的 Excel 软件撑不住，Python 的 Pandas 库又容易导致内存溢出（OOM）。

今天，我们将介绍一位“救星”——DuckDB。它是一个运行在进程内的高性能分析型数据库，被誉为“大数据时代的 SQLite”。本文将手把手教你如何利用 DuckDB 轻松读取、查询和分析超大 Excel 文件。

1. 为什么选择 DuckDB？

在开始操作之前，我们需要明白为什么 DuckDB 是处理此类问题的最佳方案：

零依赖安装：不需要安装服务器，就像 SQLite 一样，它只是一个文件或一个库。
向量化计算：DuckDB 使用列式存储和向量化执行引擎，速度比传统 Python 处理快几十倍。
内存管理：它能够处理比内存大得多的数据集（Out-of-core processing），不会像 Pandas 那样因为读入整个文件而崩溃。
SQL 友好：你可以直接对 Excel 文件写 SQL 查询，无需学习复杂的编程语法。

2. 准备工作 (Prerequisites)

本教程面向完全初学者，我们将使用 Python 环境来操作 DuckDB，这是目前最流行且最便捷的方式。

2.1 环境要求

已安装 Python (建议 3.7 及以上版本)
一个文本编辑器 (如 VS Code) 或 Jupyter Notebook

2.2 安装 DuckDB

打开你的终端（Terminal 或 CMD），输入以下命令安装 DuckDB 的 Python 包：

pip install duckdb

2.3 准备数据

假设你有一个名为 sales_data.xlsx 的超大 Excel 文件，里面有一个名为 Sheet1 的工作表。

3. 实战教程：三步搞定超大 Excel

DuckDB 本身专注于数据分析，但要读取 Excel 这种复杂的专有格式，我们需要借助 DuckDB 强大的扩展系统。我们将使用官方提供的 spatial 扩展，它内置了读取多种文件格式（包括 Excel）的能力。

第一步：初始化并安装扩展

在 Python 脚本中，我们需要先连接 DuckDB，并安装 spatial 扩展。

import duckdb

# 创建一个内存数据库连接
# 如果你想保存数据到硬盘，可以将 ':memory:' 替换为 'my_db.duckdb'
con = duckdb.connect(database=':memory:')

print("正在安装 spatial 扩展...")
# 安装扩展（只需运行一次，DuckDB 会自动下载）
con.sql("INSTALL spatial;")

# 加载扩展（每次启动程序都需要加载）
con.sql("LOAD spatial;")
print("扩展加载完成！")

第二步：直接查询 Excel 文件

与 Pandas 不同，DuckDB 不需要先将数据“全部读入”才能操作。我们可以直接把 Excel 文件当作一张数据库表来查询。

这里我们使用 st_read 函数，它是 spatial 扩展提供的万能读取函数。

# 定义 Excel 文件路径
file_path = 'sales_data.xlsx'

# 编写 SQL 查询
# st_read 的参数：文件名，layer (对应 Excel 的 Sheet 名)
query = f"""
    SELECT * 
    FROM st_read('{file_path}', layer='Sheet1') 
    LIMIT 5;
"""

print("正在读取前 5 行数据...")
result = con.sql(query).show()

第三步：进行数据分析与转换

直接读取 Excel 虽然方便，但由于 Excel 格式本身的解析速度较慢（XML 解析开销大），如果你需要频繁分析这份数据，建议将其转换为 DuckDB 的内部表或 Parquet 格式。

场景 A：将 Excel 数据转存为 DuckDB 表（推荐）

# 创建一个新表 'sales'，并将 Excel 数据全部导入
# 这一步可能会花一点时间，取决于 Excel 的大小，但后续查询会通过 DuckDB 引擎秒级响应
con.sql(f"""
    CREATE TABLE sales AS 
    SELECT * 
    FROM st_read('{file_path}', layer='Sheet1');
""")

# 现在可以飞快地进行聚合查询了
# 例如：计算总销售额
con.sql("SELECT SUM(amount) FROM sales").show()

场景 B：将 Excel 转换为 Parquet (高性能文件格式)

# 直接将 Excel 转换并导出为 Parquet 文件
con.sql(f"""
    COPY (
        SELECT * FROM st_read('{file_path}', layer='Sheet1')
    ) TO 'sales_data.parquet' (FORMAT 'PARQUET');
""")

4. 常见坑点与解决方案 (Common Pitfalls)

在使用 DuckDB 处理 Excel 时，初学者可能会遇到以下问题：

4.1 忘记安装或加载扩展

错误现象：报错提示 Scalar Function with name st_read does not exist!。
解决：确保代码中执行了 INSTALL spatial; 和 LOAD spatial;。

4.2 Sheet 名称不匹配

错误现象：报错提示找不到 layer。
解决：st_read 函数中的 layer 参数必须严格对应 Excel 左下角的工作表名称（默认为 Sheet1，但也可能是 Data、Report 等）。

4.3 内存依然飙升？

原因：虽然 DuckDB 内存管理很好，但 Excel (.xlsx) 本质上是一堆 XML 压缩包，解析过程非常消耗 CPU 和内存。
解决：

如果文件大到连 DuckDB 的 st_read 都处理吃力，建议先用 CSV 格式。
确保不要使用 con.sql(...).df() 将结果一次性转为 Pandas DataFrame，这会破功。尽量在 SQL 层面完成聚合（Sum, Count, Avg），只导出结果。

4.4 混合数据类型

现象：Excel某一列中既有数字又有文字。
解决：DuckDB 会尝试自动推断类型。如果推断失败，可以在 SQL 中使用 CAST 函数强制转换，或者在读取后进行清洗。

5. 总结与下一步

通过本文，你已经掌握了使用 DuckDB 读取超大 Excel 文件的核心技巧：

DuckDB + Spatial 扩展 是读取 Excel 的关键。
st_read 函数 允许你像操作数据库表一样操作 Excel 文件。
转换格式（如转为 Table 或 Parquet）可以获得极致的查询性能。

下一步建议：
尝试将你手头最大的 Excel 文件通过 DuckDB 转换为 Parquet 格式。你会发现，原本几百 MB 的文件体积会缩小，且读取速度将从“分钟级”变为“毫秒级”。

以上就是Python使用DuckDB秒级处理超大Excel文件的终极指南的详细内容，更多关于Python DuckDB处理超大Excel的资料请关注脚本之家其它相关文章！