Python爬虫之四：使用BeautifulSoup爬取微博热搜 - 悦读

Python爬虫之四：使用BeautifulSoup爬取微博热搜

（一）安装BeautifulSoup模块

目前，Beautiful Soup 的最新版本是 4.x 版本，之前的版本已经停止开发了。这里推荐使用 pip 来安装，安装命令如下：

pip install beautifulsoup4

（二）BeautifulSoup的介绍

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航，查找，修改文档的方式。BeautifulSoup 会帮你节省数小时甚至数天的工作时间。具体文档可参考 BeautifulSoup 文档

（三）爬取微博热搜

具体实现代码如下所示：

from bs4 import BeautifulSoup
from urllib.request import urlopen

url = 'https://s.weibo.com/top/summary?cate=realtimehot'
html = urlopen(url).read().decode('utf-8')
soup = BeautifulSoup(html, features='lxml')

tbody = soup.tbody
pre_url = 'https://s.weibo.com/'
real_time_hot = []
for item in tbody.find_all(name='tr'

悦读

道可道，非常道；名可名，非常名。无名，天地之始，有名，万物之母。故常无欲，以观其妙，常有欲，以观其徼。此两者，同出而异名，同谓之玄，玄之又玄，众妙之门。

探索ChatPremAI：使用LangChain实现智能对话的秘诀

Intermediate_Microeconomics

Python 3基础教程24-读取csv文件

uni-app文章列表制作⑨

vector的模拟实现

清空计算机网络缓存,如何清除DNS缓存使用命令清理DNS缓存方法

关于家庭用电数据分析

（CVPR，2023）ZegCLIP: 使用CLIP进行单阶段零样本语义分割

域7：安全运营第18章（DRP）和第19章（Investigation and Ethics）

ControlNet作者新项目爆火：仅一张图生成25秒绘画全过程！不到一天GitHub揽星600+...

;