Python批量解压文件中出现中文乱码的原因及解决方法
作者:布拉德特皮
这篇文章主要给大家记一次Python批量解压文件遇中文乱码及解决过程,文中有详细的图解及代码示例,具有一定的参考价值,需要的朋友可以参考下
前言
因为工作原因,公司提高了对项目的安全扫描水平,所以最近在学习Web逆向工程。
通过付费渠道,拿到了关于 Python 爬虫的相关教材,百度网盘下载后发现文件格式像套娃一样(如下图所示),如果30+个文件都挨个点进去解压,就显得有点愚蠢,正好同时要学 Python,于是拿来练手,写一个批量解压的脚本,由此引出了标题。
省流
在调用 zipfile.ZipFile()
方法时,需要多传 metadata_encoding
参数,即:
with zipfile.ZipFile(sub_zip_path, 'r', metadata_encoding='gbk') as item:
编写脚本
这里直接贴源码了,主要是遍历文件,并使用 zipfile
库解压:
import os import zipfile import shutil origin_file_path = r"G:\Nas\爬虫第11期" # 使用 os.listdir 获取目录下的所有文件列表 path_dir = os.listdir(origin_file_path) for finder in path_dir: # 拼接路径 item_path = os.path.join(origin_file_path, finder) # 如果是文件夹 if os.path.isdir(item_path): # 继续获取子目录下的文件列表 sub_file_dir = os.listdir(item_path) # 如果不是空文件夹 if len(sub_file_dir): # 正常应该用正则判断是不是zip文件 # 因为每个文件夹只有一个zip压缩包,固直接取sub_file_dir的下标0 sub_zip_path = os.path.join(item_path, sub_file_dir[0]) # 将文件解压到当前目录 zip_to_path = os.path.join(sub_zip_path, finder) # 参数 r 代表自动转义【盘符】 with zipfile.ZipFile(sub_zip_path, 'r') as item: # 其实直接调用extractall方法可以实现全部解压 # item.extractall(item_path) # 遍历压缩文件,并解压 for name in item.namelist(): item.extract(name, item_path) print(f'name: {name} | {sub_zip_path}') item.close() # 若对解压结果不满意,批量删除 # if os.path.isdir(sub_zip_path): # shutil.rmtree(sub_zip_path) print(finder, item_path, sub_file_dir) else: print('isFile:', finder)
点击运行,然后……
完全的乱码,根本没法用。
批量删除(可选)
此时可以把批量删除的代码注释打开,清空乱码文件,即:
# 参数 r 代表自动转义【盘符】 # with zipfile.ZipFile(sub_zip_path, 'r') as item: # # item.extractall(item_path) # for name in item.namelist(): # item.extract(name, item_path) # print(f'name: {name} | {sub_zip_path}') # item.close() # 若对解压结果不满意,批量删除 if os.path.isdir(sub_zip_path): shutil.rmtree(sub_zip_path)
shutil.rmtree()
就是删除整个文件夹(不会校验子目录的状态)的意思
寻解过程
Google 后发现大多数都是几年前的解法,而且涉及到修改库文件源码:
于是在查看源码的过程中,发现其实3.11版本已经支持了中文解码,只需要传入参数即可:
由上图可知,若不传入 metadata_encoding
就会默认按 cp437
处理。
修改后,再次运行脚本,发现打印和解压目录也正常了:
到此这篇关于Python批量解压文件中出现中文乱码的原因及解决方法的文章就介绍到这了,更多相关Python解压文件中出现中文乱码内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!