Bootstrap

【自动化】如何从列表中找到图片并命名保存下来

以下是对这段 Python 代码的分析:

代码功能概述

这段代码主要使用了 DrissionPage 库(看起来是用于自动化网页操作相关的库)来与浏览器(基于 Chromium 内核)进行交互,实现以下功能:

  1. 打开豆瓣图书最新页面,并等待 1 秒让页面加载完成。
  2. 对整个页面进行截图保存为 ./img1/pic.jpg
  3. 循环 3 次,每次在当前页面查找所有符合 x://li[@class="media clearfix"] 选择器的元素(可能代表每本图书的相关元素),然后获取图书的名称、封面图片的链接,并下载封面图片保存到 ./img/ 目录下(文件名以图书名称命名),每成功下载一个封面图片会打印相应提示信息。之后点击页面上的 “后页” 按钮进行翻页,同时等待页面开始加载新内容。

代码可能存在的问题及改进点

1. 导入模块问题

如果 DrissionPage 库没有正确安装,代码在运行时会出现 ModuleNotFoundError 导入模块失败的错误。需要提前确保通过 pip 等包管理工具正确安装该库,例如在命令行执行 pip install DrissionPage(假设它在 Python 包索引中有发布)。

2. 元素定位稳定性

代码中使用的 x:// 这种定位方式(推测是 DrissionPage 自定义的定位语法)选择元素,其准确性依赖于网页的 HTML 结构是否稳定。如果豆瓣图书页面的 HTML 结构发生变化,比如图书列表项的 class 属性改变了,或者内部元素的层级结构调整了,那么像 x://li[@class="media clearfix"] 等选择器可能就无法正确定位到元素,导致代码后续获取图书信息、封面等操作失败。可以考虑增加一些异常处理逻辑,比如当定位元素失败时进行适当提示或者尝试其他备用的定位方式。

3. 保存图片相关问题
  • 文件名合法性:图书名称有可能包含一些操作系统不允许作为文件名的特殊字符(如 /\:* 等),直接用图书名称作为文件名保存图片可能会导致保存失败。需要对名称进行适当的处理,比如去除或替换这些非法字符,可以使用 Python 的 re 模块结合正则表达式来实现。
  • 图片下载的可靠性:在下载图片时只是简单地调用了某个保存方法(代码中的 img.save ,具体实现依赖 DrissionPage 库),没有对下载失败等情况做额外处理,比如网络问题导致图片下载中断等情况。可以添加代码来检查图片是否真的完整下载成功,比如检查文件大小是否符合预期或者验证图片文件的完整性等。
4. 翻页逻辑可能的问题
  • 点击 “后页” 的有效性:代码中直接通过 page("后页>").click() 来点击 “后页” 按钮,依赖于页面上有对应文本为 “后页” 且能被正确识别点击的元素存在,如果页面的翻页按钮文字或者结构变化,这行代码就会失效。可以通过更稳定的定位方式,比如通过查找具有特定 id 或者符合特定相对位置等条件的按钮元素来进行点击操作。
  • 加载等待问题:代码中使用 page.wait.load_start() 等待页面加载开始,但可能更好的做法是等待页面加载完成(例如等待某些关键元素出现或者页面状态变为 ready 等),仅等待加载开始可能后续操作会因为页面还未完全加载而出现元素找不到等错误情况。可以使用 page.wait.load_end() (如果 DrissionPage 库有提供这样的方法来等待加载结束)之类更合适的等待机制。

以下是一种简单的改进示例(仅示意对文件名处理和增加部分异常处理逻辑方面,假设 DrissionPage 库相关方法按常规预期工作,其他如更稳定的元素定位等完整改进会更复杂):

import re
from DrissionPage._pages.chromium_page import ChromiumPage

page = ChromiumPage()
page.get("https://book.douban.com/latest?subcat=%E5%85%A8%E9%83%A8")
page.wait(1)
page.get_screenshot(path='./img1/', name="pic.jpg", full_page=True)

for i in range(3):
    for book in page.eles('x://li[@class="media clearfix"]'):
        name = book.ele('x://h2[@class="clearfix"]/a').text
        # 处理文件名中的非法字符,替换为下划线等合法字符
        valid_name = re.sub(r'[^\w\.]', '_', name)
        url = book.ele('x://img[@class="subject-cover"]').attr('src')
        img = book('x://img')
        try:
            img.save(path="./img/", name=f"{valid_name}.jpg")
            print(f"图书封面img.src{name}下载成功")
        except Exception as e:
            print(f"图书封面 {name} 下载失败,原因: {str(e)}")
    try:
        page("后页>").click()
        print(i)
        page.wait.load_end()  # 改为等待加载结束
    except Exception as e:
        print(f"翻页操作失败,原因: {str(e)}")

总之,这段代码实现了一个简单的豆瓣图书页面信息抓取和封面图片下载的自动化流程,但在实际应用中,为了保证其稳定性和可靠性,需要对上述提到的一些方面进行进一步优化和完善。

;