Jieba库使用和好玩的词云

Jieba库使用和好玩的词云

一、关于词云

WordCloud库常规方法

以WordCloud对象为基础
配置参数、加载文本、输出文件

函数	简述
w.generate(txt)	向WordCloud对象w中加载文本txt
w.to_file(file name)	将词云输出为图像文件，例如.png格式

方法

步骤：

配置对象参数
加载词云文本
输出词云文件

配置对象参数

函数	简述
font_path	字体路径，做中文词云必须设置字体，否则无法显示
width	输出的画布宽度，默认为400像素
height	输出的画布高度，默认为200像素
max_words	要显示的词的最大个数，默认为200
stop_words	指定词云的排除词列表，即不显示的单词列表
max_font_size	显示的最大字体大小
min_font_size	显示的最小字体大小
background_color	指定词云图片的背景颜色，默认为黑色
mask	指定词云形状，默认为长方形，需要引用imread()函数

二、文本词频统计（以《红楼梦》为例）

下载一个《红楼梦》文本这里将文本命名为 hongloumeng.txt

编写代码如下：

#DreaminRedMansions.py
import jieba   #调用jieba库

txt = open("hongloumeng.txt","r",encoding="UTF-8").read()  #打开txt文件阅读

words = jieba.lcut(txt)    #分词
counts = {}   #建立一个空字典
for word in words:
    if len(word)==1:
        continue
    else:
        counts[word]=counts.get(word,0) + 1    #遍历每个中文单词，通过字典来计数
items = list(counts.items())    #将字典counts转换为列表类型
items.sort(key=lambda x:x[1],reverse = True)   #对列表进行排序
for i in range(20):
    word,count = items[i]
    print("{0:<10}{1:>5}".format(word,count))     #打印出前20个词

但是运行出现错误，

这是因为没有写明文本所在的绝对路径，以致找不到文本，打开文本属性找到位置复制即可。

执行任有错误，

win10电脑文本编码默认为ASCII码，我们应将其改为UTF-8编码，打开 hongloumeng.txt --文件--另存为--编码--UTF-8，取名为 shitouji.txt ,按照上述方法找到新的文本位置即可。改正的代码如下：

#DreaminRedMansions.py
import jieba   #调用jieba库

txt = open("D:\我爱学习\python3\wenben\shitouji.txt","r",encoding="UTF-8").read()  #打开txt文件阅读

words = jieba.lcut(txt)    #分词
counts = {}   #建立一个空字典
for word in words:
    if len(word)==1:
        continue
    else:
        counts[word]=counts.get(word,0) + 1    #遍历每个中文单词，通过字典来计数
items = list(counts.items())    #将字典counts转换为列表类型
items.sort(key=lambda x:x[1],reverse = True)   #对列表进行排序
for i in range(20):
    word,count = items[i]
    print("{0:<10}{1:>5}".format(word,count))     #打印出前20个词

　　效果如下：

三、词云展现

1、运用jieba库和wordcloud库,代码如下：注： .join( )函数：连接字符串数组。将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的长字符串

from wordcloud import WordCloud
import jieba
def create_word_cloud():
    path_txt = 'D:\我爱学习\python3\wenben\\shitouji.txt'
    
    text = open(path_txt,"r",encoding="UTF-8").read()
    
    wordlist = jieba.lcut(text) # jieba分词
    wl = " ".join(wordlist)
 
    # 设置词云
    w = WordCloud(
        # 设置背景颜色为白色
        background_color="white",
        # 设置最大显示的词云数为200
        max_words=200,
        # 字体的一般路径--宋体
        font_path='simsun.ttc',
        height=1200,
        width=1600,
        # 设置字体最大的字体大小
        max_font_size=100,
        # 设置配色方案
        random_state=100,
    )


    w.generate(wl)  # 生成词云
    w.to_file('img_book1.png')  # 把词云保存下
 
 
if __name__ == '__main__':
    create_word_cloud()

　　　效果如下：

2、指定词云形状

mask:指定词云形状

需要引用imread函数，目前 scipy库不包含 imread 函数，imread函数在imageio库里。

from imageio import imread
mk = imread("cloud.png")  #存为图片 cloud
w = wordcloud.WordCloud(mask = mk)

　也可以用其他库，

numpy库：numpy库是Python的一个扩展程序库，能够支持维度数组与矩阵运算。
matplotlib库：matplotlib是python上的一个2D绘图库，它可以在夸平台上边出很多高质量的图像。
PIL库：PIL 库是python中很有用的处理图像的库，对图像进行操作处理，包括对原图处理，以及产生新的图片。从文件加载图像，可以使用Image.open( )函数，需要给出图片的绝对路径，例如：

from PIL import Image
im = Image.open('chrome.png')   #图片的绝对路径

　　指定词云形状的代码如下：

from wordcloud import WordCloud
from matplotlib import pyplot as plt
from PIL import Image
import numpy as np
import jieba
def create_word_cloud():
    path_txt = 'D:\\我爱学习\\python3\\wenben\\shitouji.txt'
    
    text = open(path_txt,"r",encoding="UTF-8").read()
    
    wordlist = jieba.lcut(text) # jieba分词
    wl = " ".join(wordlist)
    images = Image.open("C:\\Users\\邓若言\\Desktop\\timg.jpg")  
    maskImages = np.array(images)
    # 设置词云
    w = WordCloud(
        # 设置背景颜色为白色
        background_color="white",
        # 设置最大显示的词云数为2000
        max_words=2000,
        # 字体的一般路径--宋体
        font_path='simsun.ttc',
        height=1200,
        width=1600,
        # 设置字体最大的字体大小
        max_font_size=100,
        # 设置配色方案
        random_state=100,
        mask=maskImages
    )

    w.generate(wl)  # 生成词云
    plt.imshow(w)
    w.to_file('img_book2.png')  # 把词云保存下
 
 
if __name__ == '__main__':
    create_word_cloud()

原图片

新词云图片如下

Jieba库使用和好玩的词云

配置对象参数

悦读