Bootstrap

python文本挖掘(一)

文本挖掘应用举例

小说数据处理、情感分析、评论数据分析等。
较详细地参考链接:
Python中文分词 jieba 十五分钟入门与进阶

前期准备

1.安装jieba
pip install jieba
2.基础

# -*- coding: GBK -*-

'''
一 分词的四种模式
'''

import jieba

sentence = '我喜欢上海东方明珠'
w1 = jieba.cut(sentence,cut_all = True)
#print(w1)generator对象
#cut_all对应着分词模式,其取值为True时,代表着全模式,分词可能会出现叠加
#针对generator object,通过循环遍历出结果
#for item in w1:
#	print(item)
'''
全模式输出结果展示:
我
喜欢
上海
上海东方
海东
东方
东方明珠
方明
明珠
'''

w2 = jieba.cut(sentence,cut_all = False)#精准模式
;