Bootstrap

利用 Python 爬虫从义乌购根据关键词获取商品列表

在当今数字化商业时代,数据是企业获取竞争优势的关键。对于从事国际贸易的商家而言,能够及时、准确地获取商品信息至关重要。义乌购作为知名的国际贸易批发平台,汇集了海量的商品资源。通过 Python 爬虫技术,我们可以高效地从义乌购根据关键词获取商品列表,从而为市场分析、产品调研等提供有力支持。

一、准备工作

(一)环境搭建

  1. Python 安装:确保已安装 Python 环境,推荐使用 Python 3.8 或更高版本,以获得更好的性能和对新特性的支持。可以从 Python 官网下载安装包并安装.
  2. 开发工具配置:使用 PyCharm 或 Visual Studio Code 等 Python 开发工具,创建一个新的 Python 项目,以便方便地编写和调试代码。在项目中创建文件夹和文件,组织好代码结构.
  3. 依赖库安装:在项目中安装必要的依赖库,包括用于发送网络请求的 requests,用于解析 HTML 的 BeautifulSoup,以及用于数据存储和处理的 pandas。可以通过 pip 命令安装:
    pip install requests beautifulsoup4 pandas

(二)义乌购平台了解

1. 注册账号:在义乌购平台注册一个账号,并登录。部分商品信息可能需要登录后才能查看完整,后续可以考虑模拟登录以获取更多信息.
2. 关键词搜索:在义乌购的搜索框中输入关键词,观察搜索结果页面的 URL 变化,通常 URL 中会包含关键词参数,如 `https://www.yiwugo.com/search?keyword=手机` 中的 `keyword=手机` 即为关键词参数. 记录下关键词参数的格式,用于后续爬虫的构建.

二、编写爬虫代码

(一)发送请求

import requests

def send_request(keyword, page=1):
    url = f"https://www.yiwugo.com/search?keyword={keyword}&page={page}"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        print(f"请求失败,状态码:{response.status_code}")
        return None

 

  • 构建 URL:根据关键词和页码构建完整的搜索结果页面 URL. keyword 参数用于指定搜索关键词,page 参数用于指定页码,默认为第一页.
  • 设置请求头:模拟浏览器访问,设置 User-Agent 避免被网站反爬虫机制拦截,同时可以添加其他必要的请求头,如 Accept-Language 等,以更好地模拟真实用户行为.
  • 发送 GET 请求:使用 requests.get() 方法发送请求,获取响应内容. 若请求成功返回响应文本,否则打印错误信息并返回 None.

(二)解析 HTML

from bs4 import BeautifulSoup

def parse_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    product_list = []

    # 获取商品列表项
    product_items = soup.find_all('div', class_='product-item')
    for item in product_items:
        product_info = {}

        # 获取商品名称
        product_name = item.find('h2', class_='product-name').text.strip()
        product_info['商品名称'] = product_name

        # 获取商品价格
        product_price = item.find('span', class_='price').text.strip()
        product_info['商品价格'] = product_price

        # 获取商品图片
        product_image = item.find('img', class_='product-image')['src']
        product_info['商品图片'] = product_image

        # 获取商品链接
        product_link = item.find('a', class_='product-link')['href']
        product_info['商品链接'] = product_link

        product_list.append(product_info)

    return product_list
  • 创建 BeautifulSoup 对象:传入 HTML 文本和解析器,构建解析树. BeautifulSoup 提供了强大的选择器功能,可以方便地定位和提取 HTML 中的元素.
  • 提取商品信息:通过定位 HTML 元素的选择器,提取每个商品项的名称、价格、图片和链接等信息,并存储到字典 product_info 中,然后将 product_info 添加到列表 product_list 中. 选择器可以根据实际页面结构进行调整,以确保准确获取所需数据.

(三)整合爬虫流程

def main(keyword, pages=1):
    all_products = []
    for page in range(1, pages + 1):
        html = send_request(keyword, page)
        if html:
            products = parse_html(html)
            all_products.extend(products)
        else:
            print(f"获取第 {page} 页商品信息失败")
    return all_products
  • 主函数:定义 main() 函数,接收关键词和页码数作为参数. 使用 for 循环遍历指定页码范围,调用 send_request() 获取每一页的 HTML,再调用 parse_html() 解析 HTML 并提取商品信息,将所有商品信息存储到列表 all_products 中,最后返回 all_products.

三、运行与数据处理

(一)运行爬虫

  • 指定关键词和页码:将 keyword 替换为实际想要搜索的关键词,如 "手机",将 pages 设置为想要抓取的页码数,如 3 表示抓取前三页的商品信息.
  • 运行爬虫:执行 main() 函数,爬虫会输出获取到的商品信息列表. 如果一切顺利,你将看到包含商品名称、价格、图片和链接等详细信息的商品列表.

(二)数据存储

import pandas as pd

def save_to_csv(products, filename):
    df = pd.DataFrame(products)
    df.to_csv(filename, index=False, encoding='utf-8-sig')
  • 保存到 CSV 文件:将商品信息列表转换为 pandas 的 DataFrame 对象,然后保存到 CSV 文件中,方便后续数据分析和处理. 这样可以将爬取到的数据持久化存储,便于进行进一步的分析和利用.

四、注意事项与优化建议

(一)注意事项

  1. 遵守网站协议:在爬取义乌购平台数据时,要遵守其服务协议和使用条款,不得对网站造成过大压力或影响正常用户访问. 爬虫的请求频率应适中,避免频繁请求导致服务器负载过高.
  2. 处理反爬虫机制:若遇到反爬虫机制,如请求被拦截、IP 被封等,可以尝试更换请求头、设置请求间隔、使用代理 IP 等方法应对. 需要不断调整和优化爬虫策略,以适应网站的反爬虫措施.
  3. 数据准确性:爬取到的数据可能存在格式问题或不完整情况,需对数据进行清洗和校验,确保其准确性. 可以编写数据校验逻辑,对异常数据进行过滤和修正.

(二)优化建议

  1. 多线程/异步爬取:对于需要爬取大量商品信息的情况,可以使用 Python 的多线程库(如 threading)或异步请求库(如 aiohttp)提高爬取效率. 但要注意控制并发数量,避免对网站造成过大压力,同时要处理好线程同步和数据一致性问题.
  2. 动态加载处理:部分商品信息可能通过 JavaScript 动态加载,可以使用 selenium 等工具模拟浏览器行为,获取动态加载后的页面内容. Selenium 可以模拟用户的各种操作,如滚动页面、点击按钮等,从而获取完整的商品信息.
  3. 数据可视化:将爬取到的商品数据进行可视化分析,如绘制价格趋势图、销售量对比图等,更直观地展示商品信息,为决策提供依据. 可以使用 Python 的可视化库,如 matplotlibseaborn 等,或者将数据导出到 Excel、CSV 等格式,利用其他可视化工具进行分析.

通过以上步骤和方法,我们可以利用 Python 爬虫技术高效地从义乌购根据关键词获取商品列表,为商业决策和市场分析提供有力支持. 同时,也要注意合理使用爬虫,遵守法律法规和网站协议,保护数据安全和隐私.

;