文本挖掘应用举例
小说数据处理、情感分析、评论数据分析等。
较详细地参考链接:
Python中文分词 jieba 十五分钟入门与进阶
前期准备
1.安装jieba
pip install jieba
2.基础
# -*- coding: GBK -*-
'''
一 分词的四种模式
'''
import jieba
sentence = '我喜欢上海东方明珠'
w1 = jieba.cut(sentence,cut_all = True)
#print(w1)generator对象
#cut_all对应着分词模式,其取值为True时,代表着全模式,分词可能会出现叠加
#针对generator object,通过循环遍历出结果
#for item in w1:
# print(item)
'''
全模式输出结果展示:
我
喜欢
上海
上海东方
海东
东方
东方明珠
方明
明珠
'''
w2 = jieba.cut(sentence,cut_all = False)#精准模式