思路:
1、打开书本“更多”短评,复制链接
2、脚本分析链接,通过获取短评数,计算出页码数
3、通过页码数,循环爬取当页短评
4、短评写入到txt文本
5、读取txt文本,处理文本,输出出现频率最高的词组(前X)----通过分析得到其他结果可自由发散
用到的库:
lxml 、re、jieba、time
整个脚本如下
# -*-coding:utf8-*- # encoding:utf-8 #豆瓣每页20条评论 import requests from lxml import etree import re import jieba import time firstlink = "https://book.douban.com/subject/30193594/comments/" def stepc(firstlink):#获取评论条数 url=firstlink response = requests.get(url=url) wb_data = response.text html = etree.HTML(wb_data) a = html.xpath('