(一)安装BeautifulSoup模块
目前,Beautiful Soup 的最新版本是 4.x 版本,之前的版本已经停止开发了。这里推荐使用 pip 来安装,安装命令如下:
pip install beautifulsoup4
(二)BeautifulSoup的介绍
BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。BeautifulSoup 会帮你节省数小时甚至数天的工作时间。具体文档可参考 BeautifulSoup 文档
(三)爬取微博热搜
具体实现代码如下所示:
from bs4 import BeautifulSoup
from urllib.request import urlopen
url = 'https://s.weibo.com/top/summary?cate=realtimehot'
html = urlopen(url).read().decode('utf-8')
soup = BeautifulSoup(html, features='lxml')
tbody = soup.tbody
pre_url = 'https://s.weibo.com/'
real_time_hot = []
for item in tbody.find_all(name='tr'