Python数据序列化之pickle模块
作者:一ye残雪
前言:
在英语中 pickle
名词是泡菜,动词是腌渍的意思。可以理解为把东西腌起来保存成文件,要用的时候读出来洗洗再用。
python
的pickle
模块实现了基本的数据序列化和反序列化。
序列化对象可以在磁盘上保存对象,并在需要的时候读取出来。任何对象都可以执行序列化操作。
pickle的本质是将Python数据还原为内存中的二进制数据,供用户转移、储存。
pickle模块通常会在2种场景下使用:
- 将Python的数据保存为磁盘上的二进制文件,需要时读取还原为Python数据,可以是可打印的基本数据(字符串、列表、字典等等),也可以是不可打印的类数据。相比之下,使用Json方式只能保存可打印的基本数据
- 将已经创建好的类数据字符串化,保存为一个变量。在程序下次运行时直接读取变量还原为类数据,省去类数据的创建过程
1 将Python数据存储为本地文件
设计一个程序,输出产物是Excel工作簿output.xlsx
,工作簿中有一个工作表out_sheet
是从 标准文档input.xlsx
中的 in_sheet 中复制而来。
工作表in_sheet
的内容很庞大,难以用手动重现,通常我们会选择将 标准文档 input.xlsx 作为程序的引用素材放在工程里。程序运行过程中将工作表 in_sheet复制到工作表out_sheet
中。
如果我们要求不能明文存储 工作表 in_sheet文件,只能存储工作表对应的Worksheet()
数据 ,将使用到pickle
模块
① 存储过程
import pickle from openpyxl import load_workbook # 创建类数据 wb = load_workbook('input.xlsx') ws = wb['in_sheet'] # 将 in_sheet 复制到 out_sheet # 注意,这里的 usr_copy_sheet() 是自定义方式,openpyxl自带的copy_sheet()不能复制不同workbook中的worksheet usr_copy_sheet(ws, out_ws) # 将out_ws转化为二进制数据 obj = pickle.dumps(out_ws) # 将二进制数据存到本地文件,必须使用二进制写入 with open(file='data.txt', mode='wb') as f: f.write(obj)
此时,ws被存储到本地文件 data.txt,打开是二进制乱码
② 加载过程
import pickle from openpyxl.worksheet.worksheet import Worksheet # 创建空的类数据准备接收数据,如果类有parent属性,必须和要接收的数据保持一致 out_ws= Worksheet(parent=out_wb) # 将本地文件数据加载到类数据上,必须使用二进制打开文件 with open(file='data.txt', mode='rb') as f: out_ws= pickle.loads(f.read())
便可以省去读取 工作表in_sheet
,复制到工作表 out_sheet等等过程
2 将Python数据存储为程序的一部分
如果我们要求 工作表in_sheet
文件的数据不但不能明文存储,还不能作为外部文件,必须作为 程序.exe 的一部分,以防丢失。有些小程序一共只有一个 exe文件,外挂一个文件不方便,此时可使用到pickle
模块
① 存储过程
import pickle from openpyxl import load_workbook # 创建类数据 wb = load_workbook('input.xlsx') ws = wb['in_sheet'] # 将 in_sheet 复制到 out_sheet # 注意,这里的 usr_copy_sheet() 是自定义方式,openpyxl自带的copy_sheet()不能复制不同workbook中的worksheet usr_copy_sheet(ws, out_ws) # 将out_ws转化为二进制数据 obj = pickle.dumps(out_ws) # 将二进制数据存为py文件,必须使用文本写入 with open(file='out_sheet.py', mode='w') as f: # 将二进制数据转为 b'''xxx''' 字符串写入 py文件 data = 'data=' + str(obj).replace('b\'', 'b\'\'\'') + '\'\'' f.write(data)
此时,out_ws
被存储到本地文件out_sheet.py,内容是一串二进制码:
data=b'''\x80\x04......'''
② 加载过程
将生成的out_sheet.py
加载到程序中,直接读取数据
import pickle from openpyxl.worksheet.worksheet import Worksheet import out_sheet # 创建空的类数据准备接收数据,如果类有parent属性,必须和要接收的数据保持一致 out_ws= Worksheet(parent=out_wb) # 直接读取out_sheet.py文件中的data变量 out_ws= pickle.loads(out_sheet.data)
out_sheet.py
最终会被编译为程序的一部分
到此这篇关于Python数据序列化之pickle
模块的文章就介绍到这了,更多相关Python中的pickle模块内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!