python实例：自动爬取豆瓣读书短评，分析短评内容

思路：

1、打开书本“更多”短评，复制链接

2、脚本分析链接，通过获取短评数，计算出页码数

3、通过页码数，循环爬取当页短评

4、短评写入到txt文本

5、读取txt文本，处理文本，输出出现频率最高的词组（前X）----通过分析得到其他结果可自由发散

用到的库：

lxml 、re、jieba、time

整个脚本如下

# -*-coding:utf8-*-
# encoding:utf-8
#豆瓣每页20条评论

import requests
from lxml import etree
import re
import jieba
import time

firstlink = "https://book.douban.com/subject/30193594/comments/"

def stepc(firstlink):#获取评论条数
    url=firstlink
    response = requests.get(url=url)
    wb_data = response.text
    html = etree.HTML(wb_data)
    a = html.xpath('

python实例：自动爬取豆瓣读书短评，分析短评内容

悦读