1. 明确任务
最近学习过程中看到很多分析报告中都有运用到可视化的词云,也有看到五花八门的工具教程,刚好有一份《都挺好》电视剧的弹幕源数据。便决定用这份数据尝试使用python绘制词云。
任务内容
1. 在python中读取excel文件(《都挺好》弹幕源数据.xlsx)提取出弹幕内容
2. 对弹幕内容文本进行结巴分词,设置并过滤掉停用词
3. 使用wordcloud 将分词得到的词汇统计绘制词云图
涉及难点
1. 读写excel文件
2. jieba 中文分词
3. wordcloud 词云展示库
2. 具体操作
2.1 安装相应的第三方库
本次练习需要使用到的库包括读取excel文件的openpyxl(xlwt、xlrd、pandas),进行分词的jieba,以及进行词云图绘制的numpy、matplotlib、wordcloud。
因为不确定在此前安装过哪些库,因此先使用pip list查看已经安装好的库文件。查询之后发现只有wordcloud和openpyxl没有安装,分别使用pip install openpyxl和pip install wordcloud 即可安装。
2.2 读写文件
读写文件在之前了解过 with open 的方法,用于读写txt,csv文件。但是若要读写excel文件则需要使用特定的库。例如 openpyxl、xlwt/wlrd 以及pandas这几种第三方库来读写。本次使用的是openpyxl来进行的文件读写。
相关部分代码:
import openpyxl #此处使用的是openpyxl读取文件,此外还有 xlrd,pandas 读取文件的方式(有待补充)
filename&#