Python 爬取电影天堂top最新电影

Python爬虫有他无可比拟的优势：语法简单，经常几十行代码就能轻松解决问题，相比于JAVA,C,PHP;第三方库丰富，Python强大而又丰富的第三方库使他几乎可以无所不能。今天我们就来用用Python爬取电影天堂最新电影资源，一起来看看吧。

分析网页源代码

进入开发者模式

首先我们打开浏览器，进入开发者模式（这里推荐大家使用谷歌浏览器）

快捷键

开发者模式：Ctrl/shitf + x
或者直接按下：F12
在这里插入图片描述

分析下一页网页链接变化规律

我们爬取左边2020新片精品的相关电影。首先传递初始页面的url，先获取2020新片精品的页面链接。我们分析出每一页网页链接的变化规律：比如第一页的链接‘https://www.dy2018.com/html/gndy/dyzz/index.html’，而第二页第三页的网页链接区别于第一页的就是后面几位’index.html’和’index_2.html’,‘index_3.html’

写第一个链接获取函数

def get_detail_urls(initial_url):#解析总页面链接,得到每一个电影的链接
    pro='index'
    page_url=[]
    details=[]
    detail_urls=[]
    count=0
    for i in range(1,8):
        if  i ==1 :
            index=pro
        else:
            index=pro+'_%d'%i
        html=initial_url+index+'.html'
        page_url.append(html)
    for i in range(len(page_url)):
        count+=1
        try:
            response=requests.get(url=page_url[i],headers=headers)
            text=response.content.decode('gbk',errors='ignore')
            rst=etree.HTML(text)
            detail=rst.xpath('//td/b/a/@href')
            details.append(detail)
            if response.status_code == 200:
                print('最新电影第%d页网页链接获取成功'%count)
        except Exception as e:
            print(e)
    # print(details)
    for i in range(len(details)):
        for j in range(len(details[i])):
            url

Python 爬取电影天堂top最新电影

分析网页源代码

进入开发者模式

快捷键

分析下一页网页链接变化规律

写第一个链接获取函数

悦读