Bootstrap

酒店评论的情感分析 学习笔记(一)

这几天从github上找了一个关于酒店评论情感分析的项目进行实践。
链接在这里https://github.com/AimeeLee77/senti_analysis
在第一步,将原始数据合并到一个文件中时出现的问题:
1.UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xd0 in position 493: illegal multibyte sequence
百度翻译:UnicodeDecodeError:“gbk”编解码器无法解码位置493中的字节0xd0:非法的多字节序列
在这里插入图片描述
意思应该是是说这些原始数据中编码没有统一?猜测
查了一下资料,在代码后面加个encoding=‘UTF-8’

#读取文件内容
def getContent(fullname):
    f = codecs.open(fullname, 'r')
    content = f.readline()
    f
;