这几天从github上找了一个关于酒店评论情感分析的项目进行实践。
链接在这里https://github.com/AimeeLee77/senti_analysis
在第一步,将原始数据合并到一个文件中时出现的问题:
1.UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xd0 in position 493: illegal multibyte sequence
百度翻译:UnicodeDecodeError:“gbk”编解码器无法解码位置493中的字节0xd0:非法的多字节序列
意思应该是是说这些原始数据中编码没有统一?猜测
查了一下资料,在代码后面加个encoding=‘UTF-8’
#读取文件内容
def getContent(fullname):
f = codecs.open(fullname, 'r')
content = f.readline()
f