一下午的时间一直在解决这个错误……最后发现一个函数参数就可以解决😔
事情起因是在使用文件的 write 函数将数据集中的字符串数据写入文件时报错如下:
UnicodeEncodeError: ‘ascii’ codec can’t encode character ‘\u2019’ in position 31: ordinal not in range (128)
之后通过以下一系列操作把编码换成 ‘utf-8’
import sys
import codecs
sys.stdout = codecs.getwriter("utf-8")(sys.stdout.detach())
import sys
import importlib
importlib.reload(sys)
export LANG="en_US.UTF-8"
又报错:
UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 31-33: ordinal not in range(128)
搜索发现可能是中文标点的问题,于是又在程序中添加如下语句:
import os
os.environ['NLS_LANG'] = 'AMERICAN_AMERICA.AL32UTF8'
os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'
然后新的错误接踵而至:
UnicodeDecodeError: ‘unicodeescape’ codec can’t decode byte 0x5c in position 27: \ at end of string
检查数据发现字符串中有 ”:\\“ 包含转义字符,所以就报错了,然后参考博客对字符串变量的非转义操作函数repr()使用repr()函数对字符串变量去掉转义,发现可以了……
尝试了好几种方法其实不太确定是哪一种方法奏效,最后经测试发现,其实一开始只要在文件的open()函数中添加 encoding=‘utf-8’ 这一参数就足够了,把其他的添加的编解码代码去掉也丝毫不影响……所以这些方法大家都可以尝试一下~
写文件的时候一定要注意编解码格式为 utf-8 !!!
2023.02.20 更新
刚刚发现下面代码也可以成功解决该问题:
在终端使用命令python
进入 Python IDE,通过下述程序查看环境变量:
import sys
print(str(sys.stdout.encoding))
如果print出的结果不是‘utf-8
’ (比如我的是 ‘ANSI_X3.4-1968
’),则使用下述命令修改环境变量:
export PYTHONIOENCODING=utf-8
修改之后再运行原来的程序就不会报错啦~
参考资料