Bootstrap

成功解决文件读写时UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 31-33: ordinal not in

一下午的时间一直在解决这个错误……最后发现一个函数参数就可以解决😔

事情起因是在使用文件的 write 函数将数据集中的字符串数据写入文件时报错如下:

UnicodeEncodeError: ‘ascii’ codec can’t encode character ‘\u2019’ in position 31: ordinal not in range (128)

之后通过以下一系列操作把编码换成 ‘utf-8’

import sys
import codecs
sys.stdout = codecs.getwriter("utf-8")(sys.stdout.detach())

import sys
import importlib
importlib.reload(sys)
export LANG="en_US.UTF-8"

又报错:

UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 31-33: ordinal not in range(128)

搜索发现可能是中文标点的问题,于是又在程序中添加如下语句:

import os
os.environ['NLS_LANG'] = 'AMERICAN_AMERICA.AL32UTF8'
os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'

然后新的错误接踵而至:

UnicodeDecodeError: ‘unicodeescape’ codec can’t decode byte 0x5c in position 27: \ at end of string

检查数据发现字符串中有 ”:\\“ 包含转义字符,所以就报错了,然后参考博客对字符串变量的非转义操作函数repr()使用repr()函数对字符串变量去掉转义,发现可以了……

尝试了好几种方法其实不太确定是哪一种方法奏效,最后经测试发现,其实一开始只要在文件的open()函数中添加 encoding=‘utf-8’ 这一参数就足够了,把其他的添加的编解码代码去掉也丝毫不影响……所以这些方法大家都可以尝试一下~

写文件的时候一定要注意编解码格式为 utf-8 !!!


2023.02.20 更新

刚刚发现下面代码也可以成功解决该问题:

在终端使用命令python进入 Python IDE,通过下述程序查看环境变量:

import sys
print(str(sys.stdout.encoding))

如果print出的结果不是‘utf-8’ (比如我的是 ‘ANSI_X3.4-1968’),则使用下述命令修改环境变量:

export PYTHONIOENCODING=utf-8

修改之后再运行原来的程序就不会报错啦~


参考资料

  1. 终极解决方案UnicodeEncodeError: ‘ascii’ codec can’t encode character u’\uff08’ in position 13: ordinal not
;