Bootstrap

python文本挖掘教程,4个步骤教你轻松完成文本挖掘预处理(附python代码)

26731b736ac2d622ea6627467d678b8c.png

各位数据挖掘小伙伴,当你好不容易从网页上爬取了一大堆文本意见,然后摩拳擦掌准备大干一番时,忽然发现文本里面有很多乱七八糟的东西,比如:标点、重复词句、字符、无意义短句等等,是不是感觉有点无助。像图1。

fda06a33ef257fb480534eac6652b63e.png

下面介绍4个步骤,教你搞定上面问题。

步骤1.删掉中文里面的字母、数字、符号等噪声

咱们做中文含义分析时,不用管英语、字符、数字这些内容。这里主要使用正则表达式来删除标点符号、英文和数字。

关键代码包括:

r='[\\s+\\.!\\/_,$%^*(+\\"\\')]+|[::+——()?【】“”!,。?、~@#¥%……&*()]+'

r1='[^\\u4e00-\\u9fa5]'

for a_string in filelist:

a_string=str(a_string)

temp = re.sub(r,'',a_string) #删除标点符号

temp

;