python

关注公众号 jb51net

关闭
首页 > 脚本专栏 > python > Python读取Excel最快方法

Python中读取Excel最快的几种常见方法

作者:Python_trys

本文详细介绍了使用Python读取Excel文件的多种方法,介绍了pandas、openpyxl、xlrd、xlwt、pyexcel、Tablib、LibreOffice、DuckDB和Calamine等库的用法和特点,每种方法适用于不同的场景,文中通过代码介绍的非常详细,需要的朋友可以参考下

前言

在数据分析和处理的日常工作中,Excel文件是一种非常常见的数据存储格式。Python,作为一种功能强大的编程语言,提供了多种库来帮助用户轻松读取Excel文件。本文将介绍几种使用Python读取Excel文件的常见方法。

1. 使用pandas读取Excel文件

pandas是Python数据分析领域中最受欢迎的库之一,它提供了read_excel函数来直接读取Excel文件。

import pandas as pd 
# 读取Excel文件 
df = pd.read_excel('example.xlsx') 
# 显示前几行数据 print(df.head())

这种方法简单快捷,非常适合进行数据分析工作。pandas支持读取.xls和.xlsx格式的文件,并且可以通过参数指定特定的工作表和单元格范围。

2. 使用openpyxl读取Excel文件

openpyxl是另一个强大的库,专门用于读写.xlsx文件。与pandas不同,openpyxl允许用户以更细粒度的方式操作Excel文件,例如读取或编辑单元格格式。

from openpyxl import load_workbook
# 加载Excel文件
wb = load_workbook('example.xlsx')
# 选择工作表
sheet = wb.active
# 读取特定单元格的数据
cell_value = sheet['A1'].value
print(cell_value)

openpyxl是处理复杂Excel文件的理想选择,比如需要读取或设置单元格的格式、公式等。

3. 使用xlrd和xlwt读取Excel文件

对于较旧版本的.xls文件,xlrd和xlwt库提供了读取和写入的功能。虽然它们不支持.xlsx格式的文件,但对于需要处理遗留数据的情况非常有用。

import xlrd
# 打开文件
workbook = xlrd.open_workbook('example.xls')
# 选择工作表
sheet = workbook.sheet_by_index(0)
# 读取特定单元格的内容
cell_value = sheet.cell_value(0, 0)
print(cell_value)

尽管xlrd最新版本已经限制了对.xlsx文件的支持,但它仍然是处理.xls文件的有效工具。

4. 使用pyexcel作为一个统一的接口

pyexcel提供了一个简单的API来读取、处理和写入多种不同格式的Excel文件。如果你在寻找一个统一的接口来处理不同类型的Excel文件,pyexcel可能是一个不错的选择。

import pyexcel as p
# 读取Excel文件
data = p.get_records(file_name='example.xlsx')
for record in data: 
print(record)

pyexcel支持.xls、.xlsx、.xlsm等多种格式,使其成为处理不同类型Excel文件的便捷工具。

5.使用 Tablib 读取 Excel

Tablib是 Python 中最流行的库之一,用于导入和导出各种格式的数据。它最初是由流行requests库的创建者开发的,因此其特点是同样关注开发人员体验和人体工程学。

安装:

$ pip install tablib

代码:

**import** tablib

def iter\_excel\_tablib(file: IO\[bytes\]) -> Iterator\[dict\[str, object\]\]:  
yield from tablib.Dataset().load(file).dict

只需一行代码,该库就能完成所有繁重的工作。

在继续执行基准测试之前,我们先看看第一行的结果:

with open(‘file.xlsx’, ‘rb’) as f:
… rows = iter_excel_tablib(f)
… row = next(rows)
… print(row)

OrderedDict([(‘number’, 1),
(‘decimal’, 1.1),
(‘date’, datetime.datetime(2000, 1, 1, 0, 0)),
(‘boolean’, True),
(‘text’, ‘CONTROL ROW’)])

OrderedDict是 Python 的子类,dict具有一些额外的方法来重新排列字典顺序。它是在内置collections模块中定义的,当您请求字典时,它就是 tablib 返回的内容。由于OrderedDict是 的子类dict并且它是在内置模块中定义的,因此我们不介意并认为它足以满足我们的目的。

6.使用 Openpyxl 读取 Excel

Openpyxl是一个用 Python 读写 Excel 文件的库。与 Tablib 不同,Openpyxl 仅专用于 Excel,不支持任何其他文件类型。

事实上,tablib和pandas在读取 xlsx 文件时都在底层使用 Openpyxl。也许这种专业化会带来更好的表现。

安装:

$ pip install openpyxl

代码:

**import** openpyxl

def iter\_excel\_openpyxl(file: IO\[bytes\]) -> Iterator\[dict\[str, object\]\]:  
workbook = openpyxl.load\_workbook(file)  
rows = workbook.active.rows  
headers = \[str(cell.value) **for** cell in next(rows)\]  
**for** row in rows:  
yield dict(zip(headers, (cell.value **for** cell in row)))

这次我们要写的代码更多一些,让我们来分解一下:

输出:

with open(‘file.xlsx’, ‘rb’) as f:
… rows = iter_excel_openpyxl(f)
… row = next(rows)
… print(row)
{‘boolean’: True,
‘date’: datetime.datetime(2000, 1, 1, 0, 0),
‘decimal’: 1.1,
‘number’: 1,
‘text’: ‘CONTROL ROW’}

7.使用 LibreOffice 读取 Excel

我们现在已经用尽了将 Excel 导入 Python 的传统且显而易见的方法。我们使用了顶级指定库并获得了不错的结果。现在是跳出框框思考的时候了。

LibreOffice是其他办公套件的免费开源替代品。LibreOffice 可以处理 xls 和 xlsx 文件,并且还恰好包含带有一些有用的命令行选项的无头模式:

LibreOffice 命令行选项之一是在不同格式之间转换文件。例如,我们可以使用 libreoffice 将 xlsx 文件转换为 csv 文件:

$ libreoffice --headless --convert-to csv --outdir . file.xlsx  
convert file.xlsx -> file.csv using filter: Text - txt - csv (StarCalc)

$ head file.csv  
number,decimal,date,**boolean**,text  
1,1.1,01/01/2000,TRUE,CONTROL ROW  
2,1.2,01/02/2000,FALSE,RANDOM TEXT:0.716658989024692  
3,1.3,01/03/2000,TRUE,RANDOM TEXT:0.966075283958641

让我们用 Python 将其拼接起来。我们首先将 xlsx 文件转换为 CSV,然后将 CSV 导入 Python:

**import** subprocess, tempfile, csv

def iter\_excel\_libreoffice(file: IO\[bytes\]) -> Iterator\[dict\[str, object\]\]:  
with tempfile.TemporaryDirectory(prefix=‘excelbenchmark') as tempdir:  
subprocess.run(\[  
‘libreoffice', ‘–headless', ‘–convert-to', ‘csv',  
‘–outdir', tempdir, file.name,  
\])  
with open(f'{tempdir}/{file.name.rsplit(“.”)\[0\]}.csv', ‘r') as f:  
rows = csv.reader(f)  
headers = list(map(str, next(rows)))  
**for** row in rows:  
yield dict(zip(headers, row))

让我们来分析一下:

8.使用 DuckDB 读取 Excel

如果我们已经开始使用外部工具,为什么不给新人一个竞争的机会呢?
DuckDB是一个“进程内SQL OLAP数据库管理系统”。此描述并没有立即说明为什么 DuckDB 在这种情况下有用,但确实如此。DuckDB 非常擅长移动数据和格式之间的转换。

安装:

$ pip install duckdb

代码:

**import** duckdb

def iter\_excel\_duckdb(file: IO\[bytes\]) -> Iterator\[dict\[str, object\]\]:  
duckdb.install\_extension(‘spatial')  
duckdb.load\_extension(‘spatial')  
rows = duckdb.sql(f"“”  
SELECT \* FROM st\_read(  
‘{file.name}',  
open\_options=\[‘HEADERS=FORCE', ‘FIELD\_TYPES=AUTO'\]) “”")  
**while** row := rows.fetchone():  
yield dict(zip(rows.columns, row))

让我们来分析一下:

9.使用 Calamine 读取 Excel

近年来,Python 中的每个性能问题似乎最终都用另一种语言来解决。作为一名 Python 开发人员,我认为这是一个真正的祝福。这意味着我可以继续使用我习惯的语言并享受所有其他语言的性能优势!

Calamine是一个纯 Rust 库,用于读取 Excel 和 OpenDocument 电子表格文件。要安装python-calamine炉甘石的 Python 绑定,请执行以下命令:

$ pip install python-calamine

代码:

**import** python\_calamine

def iter\_excel\_calamine(file: IO\[bytes\]) -> Iterator\[dict\[str, object\]\]:  
workbook = python\_calamine.CalamineWorkbook.from\_filelike(file) # type: ignore\[arg-type\]  
rows = iter(workbook.get\_sheet\_by\_index(0).to\_python())  
headers = list(map(str, next(rows)))  
**for** row in rows:  
yield dict(zip(headers, row))

性能总结

总结一下使用Python读取Excel文件的方法以及读取Excel花费的时间:

Pandas 32.98
Tablib 28.52
Openpyxl 35.62
Openpyxl (readonly) 24.79
LibreOffice 15.27
DuckDB (sql) 11.36
DuckDB (execute) 5.73
Calamine (python-calamine) 3.58

以上介绍了几种使用Python读取Excel文件的方法,每种方法都有其适用场景。对于数据分析师和开发者来说,选择合适的库可以极大地提高工作效率。
那么您应该使用哪一个呢?这取决于…在选择在 Python 中处理 Excel 文件的库时,除了速度之外,还有一些其他考虑因素:

到此这篇关于Python中读取Excel最快的几种常见方法的文章就介绍到这了,更多相关Python读取Excel最快方法内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

您可能感兴趣的文章:
阅读全文