Python爬虫深入
爬取当当网商品基本信息
使用scrapy爬虫框架,创建爬虫项目。
基本命令:
scrapy startproject dangdang
scrapy genspider -l
scrapy genspider -t basic dd dangdang.com
在dangdang这个爬虫项目下:
items.py的内容
对爬取数据之后提取的数据进行定义
import scrapy
class DangdangItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
title=scrapy.Field()
link=scrapy.Field()
price=scrapy.Field()
comment=scrapy.Field()
commentlink=scrapy.Field()
dd.py的内容
依托于scrapy框架的爬虫文件
爬取数据,然后提取数据,并赋给对象
import scrapy
from dangdang.items import DangdangItem
from scrapy.http import Request
class DdSpider(scrapy.Spider):
name = 'dd'
allowed_domains = ['dangdang.com']
start_urls =