情感分析概念
情感分析是文本分类中最常见的应用场景,就是从一段文本中描述中,理解其感情色彩,是褒义,贬义还是中性。
数据源
数据集未电影《哪吒》的影评数据,包含以下字段:
time: 时间
city:城市
gender:性别。0未知,1男 2女
name:名字
level:登记
score:分数
comment:评论
import numpy as np
import pandas as pd
comment=pd.read_csv(r"C:Users24977Desktopcomment.csv")
print(comment.shape)
(578760, 7)
一共有578760行数据,7个字段。
数据清洗
我们需要进行评论的处理,先看了下空值,发现不多,直接删除,然后去重。
print(comment.isnull().sum())
time 0
city 226
gender 0
name 2722
level 0
score 0
comment 4
dtype: int64
comment.comment.dropna(inplace=True)
comment.drop_duplicates(inplace=True)
随后对文本内容进行处理。需要首先将一些标点符号去除,用正则匹配
import re
re_obj=re.compile(r"[!"#@#$%^&*()_+=-><、|【】{}‘’“”""''??,,。)(——/~·!]")
def clear(text):
return re_obj.sub("",text)
comment["comment"]=comment["comment"].apply(clear)
然后再对文本进行分词