Bootstrap

Python爬虫之四:使用BeautifulSoup爬取微博热搜

(一)安装BeautifulSoup模块

目前,Beautiful Soup 的最新版本是 4.x 版本,之前的版本已经停止开发了。这里推荐使用 pip 来安装,安装命令如下:

pip install beautifulsoup4

(二)BeautifulSoup的介绍

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。BeautifulSoup 会帮你节省数小时甚至数天的工作时间。具体文档可参考 BeautifulSoup 文档 

(三)爬取微博热搜

具体实现代码如下所示:

from bs4 import BeautifulSoup
from urllib.request import urlopen

url = 'https://s.weibo.com/top/summary?cate=realtimehot'
html = urlopen(url).read().decode('utf-8')
soup = BeautifulSoup(html, features='lxml')

tbody = soup.tbody
pre_url = 'https://s.weibo.com/'
real_time_hot = []
for item in tbody.find_all(name='tr'
;