案例一:爬取网页内容`
pythonimport requests
# 发送 GET 请求获取网页内容
response = requests.get('https://www.example.com')
# 检查请求是否成功
if response.status_code == 200:
# 打印网页内容
print(response.text)else:
# 打印错误信息
print(f'请求失败,状态码:{response.status_code}')
案例二:爬取图片
python import requests
#发送 GET 请求获取图片
response = requests.get('https://www.example.com/image.jpg')
#检查请求是否成功
if response.status_code == 200:
#以二进制形式写入图片文件
with open('image.jpg', 'wb') as f:
f.write(response.content)
else:
# 打印错误信息
print(f'请求失败,状态码:{response.status_code}')
案例三:爬取数据并存储到数据库
pythonimport requestsimport pymysql
#连接数据库
conn = pymysql.connect(host='localhost', user='root', password='password', database='example')
#创建游标
cursor = conn.cursor()
#发送 GET 请求获取网页内容
response = requests.get('https://www.example.com')
#检查请求是否成功
if response.status_code == 200:
#解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取数据
data = soup.find_all('div', class_='data')
# 遍历数据并插入到数据库
for item in data:
name = item.find('h2').text
age = item.find('p').text
# 执行 SQL 语句插入数据
cursor.execute('INSERT INTO users (name, age) VALUES (%s, %s)', (name, age))
# 提交事务
conn.commit()
else:
# 打印错误信息
print(f'请求失败,状态码:{response.status_code}')
# 关闭游标和连接
cursor.close()
conn.close()
这些案例只是 Python 爬虫的简单示例,实际应用中可能会涉及到更多的技术和处理,例如处理反爬虫机制、数据清洗、并发爬取等。在进行爬虫开发时,需要遵守相关法律法规和网站的使用条款,并注意不要对目标网站造成过大的负担。如果你想深入学习 Python 爬虫,可以参考相关的书籍、教程和开源项目,不断提升自己的技能水平。