Bootstrap

Python爬虫深入 爬取当当网商品基本信息

Python爬虫深入

爬取当当网商品基本信息

使用scrapy爬虫框架,创建爬虫项目。
基本命令:
scrapy startproject dangdang
scrapy genspider -l
scrapy genspider -t basic dd dangdang.com

在dangdang这个爬虫项目下:
items.py的内容
对爬取数据之后提取的数据进行定义

import scrapy
class DangdangItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title=scrapy.Field()
    link=scrapy.Field()
    price=scrapy.Field()
    comment=scrapy.Field()
    commentlink=scrapy.Field()

dd.py的内容
依托于scrapy框架的爬虫文件
爬取数据,然后提取数据,并赋给对象

import scrapy
from dangdang.items import DangdangItem
from scrapy.http import Request

class DdSpider(scrapy.Spider):
    name = 'dd'
    allowed_domains = ['dangdang.com']
    start_urls = 
;