xlrd 是一个 Python 库,用于读取 Excel 文件(.xls 和 .xlsx 格式)。然而,需要注意的是,从 xlrd 的版本 2.0.0 开始,它不再支持 .xlsx 文件的读取,因为 .xlsx 文件是基于 XML 和 ZIP 压缩的,与 .xls 文件(基于二进制文件格式 BIFF)的处理方式不同。因此,如果你尝试使用 xlrd 读取 .xlsx 文件,并且你的 xlrd 版本是 2.0.0 或更高,你将会遇到错误。
报错问题
当你尝试使用 xlrd 库读取 .xlsx 文件时,可能会遇到以下错误:
xlrd.biffh.XLRDError: Excel xlsx file; not supported
这个错误明确告诉你,xlrd 不支持 .xlsx 文件格式。
报错原因
报错的原因是因为你正在使用的 xlrd 版本(2.0.0 或更高)已经移除了对 .xlsx 文件格式的支持。从 xlrd 2.0.0 开始,开发者将焦点放在了 .xls 文件的读取上,并建议用户对于 .xlsx 文件使用其他库,如 openpyxl 或 pandas(它内部使用 openpyxl 来处理 .xlsx 文件)。
下滑查看解决方法
解决方法
降级 xlrd: 如果你确实需要继续使用 xlrd 并且只处理 .xls 文件,你可以考虑将 xlrd 降级到一个支持 .xlsx 的旧版本(例如 1.2.0)。但请注意,这不是一个长期的解决方案,因为旧版本的库可能不包含最新的功能和安全修复。 使用 pip 降级 xlrd:pip install xlrd==1.2.0
使用 openpyxl:
对于 .xlsx 文件,你应该使用 openpyxl。这个库专门用于读取和写入 .xlsx 文件,并且与 pandas 库兼容。 安装 openpyxl:
pip install openpyxl
使用 openpyxl 读取 .xlsx 文件:
from openpyxl import load_workbook
workbook = load_workbook(filename='your_file.xlsx')
sheet = workbook.active # 获取活动工作表
# 或者使用 workbook['Sheet1'] 获取特定名称的工作表
# 接下来你可以遍历单元格、读取数据等
使用 pandas:
如果你习惯使用 pandas 进行数据处理,并且你的数据在 Excel 文件中,你可以直接使用 pandas 的 read_excel 函数来读取 .xlsx 文件。pandas 内部使用了 openpyxl 或 xlrd(取决于文件类型和安装的库)来处理 Excel 文件。 安装 pandas(如果你还没有安装):
pip install pandas
使用 pandas 读取 .xlsx 文件:
import pandas as pd
df = pd.read_excel('your_file.xlsx')
# 现在 df 是一个包含 Excel 数据的 pandas DataFrame
注意:如果你的环境中同时安装了 xlrd 和 openpyxl,pandas 会根据文件类型自动选择使用哪个库来读取 Excel 文件。对于 .xlsx 文件,它通常会选择 openpyxl。如果你想要指定使用的引擎,可以通过 engine 参数来实现:
df = pd.read_excel('your_file.xlsx', engine='openpyxl')
如果还有什么疑惑欢迎评论区留言或者私信我来帮助你解答,谢谢阅读。