Bootstrap

【Python】已解决:(Python爬虫requests报错):requests.exceptions.ProxyError: HTTPSConnectionPool




图片描述



个人简介:某不知名博主,致力于全栈领域的优质博客分享 | 用最优质的内容带来最舒适的阅读体验!文末获取免费IT学习资料!



🍅 文末获取更多信息 🍅 👇🏻 精彩专栏推荐订阅收藏 👇🏻



专栏系列直达链接相关介绍
书籍分享点我跳转书籍作为获取知识的重要途径,对于IT从业者来说更是不可或缺的资源。不定期更新IT图书,并在评论区抽取随机粉丝,书籍免费包邮到家
AI前沿点我跳转探讨人工智能技术领域的最新发展和创新,涵盖机器学习、深度学习、自然语言处理、计算机视觉等领域的研究进展和趋势分析。通过深入解读前沿技术、案例研究和行业动向,为读者带来关于人工智能未来发展方向和应用前景的洞察和启发。
Elasticsearch点我跳转详解 Elasticsearch 搜索和数据分析引擎
科技前沿点我跳转本档是关于科技和互联网的专栏,旨在为读者提供有趣、有用、有深度的科技资讯和思考。从多个角度探讨科技与人类生活的关系,包括但不限于科技趋势、产品评测、技术解读、行业观察、创业故事等内容。希望通过本栏,与读者分享科技的魅力和思考,让科技成为我们生活的一部分,而不仅仅是一个陌生的词汇。
Java之光点我跳转本栏将带领读者深入探索Java编程世界的种种奥秘。无论你是初学者还是资深开发者,这里都将为你提供丰富的Java知识和实用的编程技巧。
Linux学习日志点我跳转本专栏致力于探索Linux操作系统的各个方面,包括基础知识、系统管理、网络配置、安全性等。通过深入浅出的文章和实践指南,帮助读者更好地理解和应用Linux,提高系统管理和开发技能。无论你是初学者还是有经验的Linux用户,都能在本专栏中找到有用的信息和解决方案。
MySQL之旅点我跳转专栏将带领读者进入MySQL数据库的世界,探索其强大的功能和应用。我们将深入探讨MySQL的基本概念、SQL语言的应用、数据库设计与优化、数据备份与恢复等方面的知识,并结合实际案例进行讲解和实践操作。
精通Python百日计划点我跳转我们将引领你踏上一段为期100天的编程之旅,逐步深入了解和掌握Python编程语言。无论你是编程新手还是有一定基础的开发者,这个专栏都会为你提供系统而全面的学习路径,帮助你在短短100天内成为Python高手。



在这里插入图片描述
已解决:(Python爬虫requests报错):requests.exceptions.ProxyError: HTTPSConnectionPool

一、分析问题背景

在进行Python爬虫开发时,我们经常会使用requests库来发送HTTP请求。然而,在配置代理服务器或者使用某些特定的网络环境时,我们可能会遇到requests.exceptions.ProxyError: HTTPSConnectionPool这样的报错。这个问题通常发生在尝试通过代理服务器访问HTTPS资源时,表明爬虫在与代理服务器建立连接时遇到了问题。

二、可能出错的原因

  1. 代理服务器设置错误:代理服务器的地址、端口或认证信息配置不正确。
  2. 代理服务器不可用:代理服务器可能已关闭或无法访问目标网站。
  3. 网络环境问题:本地网络环境可能限制了与代理服务器的通信。
  4. 请求超时:由于网络延迟或代理服务器响应过慢,导致请求超时。

三、错误代码示例

以下是一个可能导致requests.exceptions.ProxyError: HTTPSConnectionPool错误的代码示例:

import requests  
  
proxies = {  
    'https': 'https://incorrect_proxy_address:port',  # 错误的代理地址和端口  
}  
  
try:  
    response = requests.get('https://example.com', proxies=proxies)  
    print(response.text)  
except requests.exceptions.ProxyError as e:  
    print(f"ProxyError occurred: {e}")

在这段代码中,如果代理服务器的地址或端口配置错误,或者代理服务器无法正常工作,就会触发ProxyError。

四、正确代码示例

为了解决这个问题,我们需要确保代理服务器的配置是正确的,并且代理服务器是可用的。以下是一个修正后的代码示例:

import requests  
  
proxies = {  
    'https': 'https://correct_proxy_address:port',  # 正确的代理地址和端口  
    # 如果代理需要认证,可以添加认证信息,例如:  
    # 'https': 'http://user:password@correct_proxy_address:port',  
}  
  
headers = {  
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36',  
}  # 设置合适的User-Agent有助于避免被目标网站拦截  
  
timeout = 10  # 设置请求超时时间,避免无限等待  
  
try:  
    response = requests.get('https://example.com', proxies=proxies, headers=headers, timeout=timeout)  
    print(response.text)  
except requests.exceptions.ProxyError as e:  
    print(f"ProxyError occurred: {e}")

在这段代码中,我们修正了代理服务器的配置,并添加了请求头和超时设置,以增加请求的健壮性。

五、注意事项

  1. 确保代理服务器的可靠性:在使用代理服务器之前,务必验证其可用性和稳定性。
  2. 合理设置请求头:模拟的浏览器信息(User-Agent)应与真实浏览器一致,以减少被目标网站识别为爬虫的风险。
  3. 处理异常:在编写爬虫时,应充分考虑并处理可能出现的各种网络异常,如超时、连接错误等。
  4. 遵守法律法规:在爬虫开发过程中,务必遵守相关法律法规和网站的robots.txt规则,尊重网站的隐私和版权。
;