pandas读取中文xlsx文件出现的问题
作者:啊!漂泊的鱼
panda读取中文xlsx文件
1、数据为中文内容,xlsx文件保存。
2、直接读取文件出错(Python报错:pandas.errors.ParserError: Error tokenizing data. C error: Expected 3……),将xlsx文件后缀保存为csv,仍出现格式问题(xlsx不能为多表,左下角可以切换多个窗口的那种),后**将xlsx文件另存为csv**解决此问题。
3、读取csv文件出现编码问题(UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xb3 in position 0: invalid start byte),在读取文件时改编码content = pd.read_csv(‘news.csv’,encoding=‘gbk’)
解决pandas读取xlsx时报错
Must explicitly set engine if not passing in buffer or path for io.
今天在用低版本的pandas==0.24.2时,读取xlsx文件报错。
pd.read_excel(xlsx_file_IO_string) # xlsx IO流
Must explicitly set engine if not passing in buffer or path for io.
查看了源代码,如果未指定engine,那么默认使用xlrd来读,而且我本地的xlrd==1.2.0,所以不存在xlrd版本问题。另外又尝试指定了engine=openpyxl,仍然不能解决读取xlsx文件错误的问题。确定是pandas版本过低导致的问题,有条件的可以升级pandas版本,没条件的继续往下看。
使用BytesIO对象,声明流为bytes类型,成功解决问题。
from pandas.io.common import BytesIO import pandas as pd pd.read_excel(BytesIO(content))) # 此处centent为你的xlsx文件内容
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。