Python爬虫 | Scrapy 爬虫框架学习

Scrapy 爬虫框架学习

Scrapy是一个快速的、高层次的web爬取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。

安装Scrapy

首先，需要安装Scrapy。可以通过pip安装：

pip install scrapy

创建Scrapy项目

创建一个新的Scrapy项目，可以使用以下命令：

scrapy startproject myproject

这将创建一个名为myproject的目录，其中包含项目的文件结构。

定义Item

在myproject/myproject/items.py文件中定义想要抓取的数据结构：

import scrapy

class MyProjectItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    description = scrapy.Field()

创建Spider

在myproject/myproject/spiders目录下创建一个新的Spider：

import scrapy
from myproject.items import MyProjectItem

class MySpider(scrapy.Spider):
    name = 'my_spider'
    allowed_domains = ['example.com']
    start_urls = ['http://www.example.com/']

    def parse(self, response):
        for h2 in response.css('h2.title'):
            item = MyProjectItem()
            item['title'] = h2.css('a::text').get()
            item['description'] = h2.xpath('./p')[0].css('::text').get()
            yield item

运行Spider

运行Spider，可以使用以下命令：

scrapy crawl my_spider

存储数据

Scrapy支持多种方式存储数据，包括JSON、CSV、XML等。可以通过命令行参数指定输出格式：

scrapy crawl my_spider -o output.json

进阶使用

中间件：Scrapy允许你通过中间件来处理请求和响应。
管道：通过管道（Pipelines）处理Item，例如清洗、验证数据，或者将数据存储到数据库。
设置：在settings.py文件中配置项目级别的设置，例如并发请求的数量、延迟等。

文档和资源

Scrapy官方文档：Scrapy官方文档
Scrapy架构：了解Scrapy的架构有助于深入理解其工作原理。
Scrapy社区：加入Scrapy社区，与其他开发者交流经验和问题。

通过以上步骤，可以开始使用Scrapy来构建自己的爬虫项目。Scrapy是一个强大的工具，通过学习和实践，可以掌握高效的web数据抓取技术。