一、概述
对于一个宅男,喜欢看电影,每次打开电影网站,各种弹出的广告,很是麻烦,还是要自己去复制下载链接到迅雷上粘贴并下载,这个过程中还有选择困难症;这一系列的动作让人甚是不爽,不如有下好的,点着看就好了;作为一个python爱好者,结合对爬虫的一点小了解,于是周末花了点时间用python写了一个爬取某电影网站上的最新电影板块;
思路:
爬虫针对某电影网站,收集电影名,下载链接,评分,等信息;当天更新的电影,特别的打印出来;同时通过评分调用迅雷下载,当然先判断下,是否已经下载过了,再决定是否下载;然后,就是可以看了~
本次版本是基于python3.x下通过,在windows上才能调用迅雷~linux平台只能获取相关信息!
python安装和相关的模块安装这里不讲述,如有不明白请留言我~
jupyter上运行如下:
二、代码
废话不多说上代码吧~
# coding:utf-8
# version 20181027 by san
import re,time,os
from urllib import request
from lxml import etree # python xpath 单独使用导入是这样的
import platform
import ssl
ssl._create_default_https_context = ssl._create_unverified_context # 取消全局证书
#爬虫电影之类
class getMovies:
def __init__(self,url,Thuder):
''' 实例初始化 '''
self.url = url
self.Thuder = Thuder
def getResponse(self,url):
url_request = request.Request(self.url)
url_response = request.urlopen(url_request)
return url_response #返回这个对象
def newMovie(self):
''' 获取最新电影 下载地址与url '''
http_response = self.getResponse(webUrl) #拿到http请求后的上下文对象(HTTPRes