Python爬虫有他无可比拟的优势:语法简单,经常几十行代码就能轻松解决问题,相比于JAVA,C,PHP;第三方库丰富,Python强大而又丰富的第三方库使他几乎可以无所不能。今天我们就来用用Python爬取电影天堂最新电影资源,一起来看看吧。
分析网页源代码
进入开发者模式
首先我们打开浏览器,进入开发者模式(这里推荐大家使用谷歌浏览器)
快捷键
开发者模式:Ctrl/shitf + x
或者直接按下:F12
分析下一页网页链接变化规律
我们爬取左边2020新片精品的相关电影。首先传递初始页面的url,先获取2020新片精品的页面链接。我们分析出每一页网页链接的变化规律:比如第一页的链接‘https://www.dy2018.com/html/gndy/dyzz/index.html’,而第二页第三页的网页链接区别于第一页的就是后面几位’index.html’和’index_2.html’,‘index_3.html’
写第一个链接获取函数
def get_detail_urls(initial_url):#解析总页面链接,得到每一个电影的链接
pro='index'
page_url=[]
details=[]
detail_urls=[]
count=0
for i in range(1,8):
if i ==1 :
index=pro
else:
index=pro+'_%d'%i
html=initial_url+index+'.html'
page_url.append(html)
for i in range(len(page_url)):
count+=1
try:
response=requests.get(url=page_url[i],headers=headers)
text=response.content.decode('gbk',errors='ignore')
rst=etree.HTML(text)
detail=rst.xpath('//td/b/a/@href')
details.append(detail)
if response.status_code == 200:
print('最新电影第%d页网页链接获取成功'%count)
except Exception as e:
print(e)
# print(details)
for i in range(len(details)):
for j in range(len(details[i])):
url