Python爬取豆瓣电影全部分类数据并存入数据库

在当今数字化的时代，网络上丰富的影视资源信息吸引着众多开发者去挖掘和利用。今天，我就来和大家分享一段有趣的代码，它能够从豆瓣电影平台获取相关数据并存储到数据库中哦。

结果展示（文末附完整代码）：

一、代码准备

一、代码准备

首先，我们看到这段代码开头进行了一系列的导入操作。它引入了像 re（用于正则表达式处理）、pymysql（用于与 MySQL 数据库进行交互）、requests（方便发送 HTTP 请求）以及 lxml（用于解析 HTML 等）这些非常实用的库。

# -*- coding:utf-8 -*-
import re
import pymysql
import requests
from lxml import etree

二、Douban 类的初始化

接下来，定义了一个名为 Douban 的类。在这个类的初始化方法 __init__ 中，做了很多重要的设置。

1. 请求头设置

设置了 headers，这里面包含了各种关于请求的信息，比如接受的内容类型、语言偏好、缓存控制等等。这些设置能够让我们的请求更符合豆瓣服务器的要求，顺利获取到数据。例如：

self.headers = {
    "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7",
    "accept-language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6",
    // 其他设置省略
}

2. Cookie 设置

同时，也配置了 cookies，这些是在之前与豆瓣网站交互过程中可能留下的一些标识信息，对于后续请求获取准确数据也起到了一定的作用哦。比如：

self.cookies = {
    "_pk_id.100001.4cf6": "f993e3f352d610f5.1712975414.",
    "__gads": "ID=8f742f4360ad4561:T=1712975416:RT=1712975416:S=ALNI_MYEjjG_8aAehpZQ58LPXuy8119UYQ",
    // 其他设置省略
}

3. 数据库连接

还建立了与 MySQL 数据库的连接哦。指定了数据库的主机地址（这里是本地的 127.0.0.1）、端口（3306）、用户名（root）、密码（921108）以及要使用的数据库名（data），并且创建了一个游标，以便后续执行 SQL 语句呢。

self.db = pymysql.Connect(
    host='127.0.0.1',
    port=3306,
    user='root',
    password='921108',
    db='data'
)
self.cursor = self.db.cursor()

三、获取电影种类相关数据

在 Douban 类中有一个 get_zhonglei 方法，它主要负责获取电影的种类相关信息。

1. 初始请求

首先，它会向豆瓣电影的排行榜页面（https://movie.douban.com/chart）发送一个 GET 请求，带上之前设置好的 headers 和 cookies。然后通过 lxml 的 etree 来解析获取到的 HTML 内容，找到页面中相关的 span 元素列表。

url = "https://movie.douban.com/chart"
response = requests.get(url, headers=self.headers, cookies=self.cookies).text
html = etree.HTML(response)
span_list = html.xpath('//*[@id="content"]/div/div[2]/div[1]/div/span')

2. 进一步处理

对于每个找到的 span 元素，它会提取出其中链接的 href 属性值，通过正则表达式从 href 中获取到电影类型对应的编号 type_。然后根据这个编号构建新的请求链接，再次发送请求获取到该类型电影的总数 filtered_total，最后调用 parse 方法来进一步处理这些数据哦。

for span in span_list:
    href = span.xpath('./a/@href')[0]
    type_ = re.findall(r'type=(\d+)', href)[0]
    url = f'https://movie.douban.com/j/chart/top_list_count?type={type_}&interval_id=100%3A90&action='
    response = requests.get(url=url, headers=self.headers, cookies=self.cookies).json()
    filtered_total = response['filtered_total']
    self.parse(type_, filtered_total, j, i)

四、解析并存储数据

Douban 类中parse 方法则承担着解析获取到的具体电影数据并存储到数据库的重要任务。

1. 请求数据

它会根据传入的电影类型编号 type_ 和总数 filtered_total，构建合适的请求参数，向 https://movie.douban.com/j/chart/top_list 发送请求，获取到该类型下的一系列电影详细信息，这些信息是以 JSON 格式返回的哦。

url = "https://movie.douban.com/j/chart/top_list"
params = {
    "type": type_,
    "interval_id": "100:90",
    "action": "",
    "start": "0",
    "limit": filtered_total,
}
response = requests.get(url, headers=self.headers, cookies=self.cookies, params=params).json()

2. 数据处理与存储

对于每一部电影的信息，它提取出诸如电影标题、演员数量、演员名单、评分、地区、上映日期、电影类型、投票数等重要信息。并且对上映日期进行了一些格式上的处理，然后将这些数据按照一定的格式准备好，尝试插入到名为 movie_info 的数据库表中。如果在插入过程中出现了 MySQL 错误，它会打印出错误信息哦。

for item in response:
    title = item['title']
    actor_count = item['actor_count']
    actors = item['actors']
    score = item['rating'][0]
    regions = item['regions'][0]
    release_date = item['release_date']
    types = item['types']
    vote_count = item['vote_count']
    // 数据处理省略部分代码
    try:
        sql = "insert into movie_info (movie_name,movie_date,movie_type, movie_country,actor_name,score, score_all) values (%s,%s,%s,%s,%s,%s,%s)"
        self.cursor.execute(sql, (movie_name,movie_date,movie_type, movie_country,actor_name,score, score_all))
        self.db.commit()
    except pymysql.MySQLError as e:
        print(f"An error occurred: {e}")

完整代码：

# -*- coding:utf-8 -*-
import re

import pymysql
import requests
from lxml import etree


class Douban(object):
    def __init__(self):
        self.headers = {
    "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7",
    "accept-language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6",
    "cache-control": "no-cache",
    "pragma": "no-cache",
    "priority": "u=0, i",
    "referer": "https://cn.bing.com/",
    "sec-ch-ua": "\"Microsoft Edge\";v=\"131\", \"Chromium\";v=\"131\", \"Not_A Brand\";v=\"24\"",
    "sec-ch-ua-mobile": "?0",
    "sec-ch-ua-platform": "\"Windows\"",
    "sec-fetch-dest": "document",
    "sec-fetch-mode": "navigate",
    "sec-fetch-site": "cross-site",
    "sec-fetch-user": "?1",
    "upgrade-insecure-requests": "1",
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0"
}
        self.cookies = {‘填入你的cookies’}
        self.db = pymysql.Connect(
            host='127.0.0.1',
            port=3306,
            user='root',
            password='921108',
            db='data'
        )
        self.cursor = self.db.cursor()
    def get_zhonglei(self, j ,i):
        url = "https://movie.douban.com/chart"
        response = requests.get(url, headers=self.headers, cookies=self.cookies).text
        html = etree.HTML(response)
        span_list = html.xpath('//*[@id="content"]/div/div[2]/div[1]/div/span')
        for span in span_list:
            href = span.xpath('./a/@href')[0]
            # text = span.xpath('./a/text()')[0]
            # print(url)
            type_ = re.findall(r'type=(\d+)', href)[0]
            # print(type_)
            url = f'https://movie.douban.com/j/chart/top_list_count?type={type_}&interval_id=100%3A90&action='
            response = requests.get(url=url, headers=self.headers, cookies=self.cookies).json()
            filtered_total = response['filtered_total']
            print(type_, filtered_total)
            self.parse(type_, filtered_total, j, i)
    def parse(self, type_, filtered_total, j, i):
        url = "https://movie.douban.com/j/chart/top_list"
        params = {
            "type": type_,
            "interval_id": "100:90",
            "action": "",
            "start": "0",
            "limit": filtered_total,
        }
        response = requests.get(url, headers=self.headers, cookies=self.cookies, params=params).json()
        for item in response:
            title = item['title']
            actor_count = item['actor_count']
            actors = item['actors']
            score = item['rating'][0]
            regions = item['regions'][0]
            release_date = item['release_date']
            types = item['types']
            vote_count = item['vote_count']
            j += 1
            # i.append([j, title, actor_count, actors, score, regions, release_date, types, vote_count])
            # print(j, title, actor_count, actors, score, regions, release_date, types, vote_count)
            if len(release_date) == 4:
                movie_date = f"{release_date}-01-01"
            else:
                movie_date = release_date
            movie_name = title
            movie_type = str(types)
            movie_country = regions
            actor_name = str(actors)
            score_all = vote_count
            print(j, movie_name,movie_date,movie_type, movie_country,actor_name,score, score_all)
            # 插入movies表
            try:
                sql = "insert into movie_info (movie_name,movie_date,movie_type, movie_country,actor_name,score, score_all) values (%s,%s,%s,%s,%s,%s,%s)"
                self.cursor.execute(sql, (movie_name,movie_date,movie_type, movie_country,actor_name,score, score_all))
                self.db.commit()
            except pymysql.MySQLError as e:
                print(f"An error occurred: {e}")
                # self.db.rollback()
                pass
if __name__ == '__main__':
    j = 0
    i = []
    spider = Douban()
    spider.get_zhonglei(j, i)

通过这段代码，我们就可以实现从豆瓣电影平台获取丰富的电影数据，并将它们有序地存储到我们自己的数据库中啦，是不是很有意思呢？当然，在实际应用中，我们还可以根据自己的需求对代码进行进一步的优化和扩展哦。