Bootstrap

python实用代码2:自动爬找下载电影

【银行业正处于快速数字化转型中,怎么发展?往哪里走?最后能到哪里?确切的方向谁也说不完整,广征意见中的各类奇思怪想满天飞。总结起来有这么几类:一是提高工作效率类。如通过系统提高自动化处理比例,将日常工作中某些规律性业务交由系统自动处理,提高单位时间内工作效率,如报表自动统计、业务机器人等;二是提升客户体验感类。如通过系统处理常规业务弥补客服人员的有限性,减少客户等待时间,方便客户自主操作,例如ATM机、银企对账机、智能开卡机等取款、查询打印等易于理解、不会产生歧义类常规业务;三是大数据分析类。如根据退休人员购买理财产品等情况,提供更符合该类客户在安全、稳定收益方面需求的产品。   

       本人是银行窗口服务方面小小负责人,希望在数据化转型方面通过系统建设等方式,提高柜面服务质量、服务效率,更好的为服务对象提供更优质服务。各位如在办理银行业务方面,不管是线下还是线上如遇到什么问题,如您方便,随时可以在评论区吐槽或反应,不胜感激!   

       在实际工作中,技术人员与业务人员面对对象不一样,思维也相差挺大,为了体验技术人员可能的思路, 我试着学学编程。作为只是尝试,所以仅仅是通过简单的编程解决工作上一些小问题,偏实用性,如excel报表汇总、数据查询等,为了提高兴趣,也收集并按自己想法更改了一些爬虫程序,如批量下载电影、图片、音乐等,后续将陆续发布,如有侵权请知会立删】

     

python实用代码2:自动爬找下载电影

        学习python有一点很吸引人,就是爬虫技术,不知初学者们有无同感?能自动搜索到自己需要的各种数据! 其中,自动下载电影更让人兴奋,试想:一打开程序运行后,同时有几千部电影等待下载,下载一晚上,硬盘满满当当的几千电影,多么壮观!收集整理代码如下,仅供交流学习。

#coding=utf-8
import requests
import bs4
import pandas as pd
import os
import pyperclip

def get_data(url):  #1、网络请求 
    #访问指定的 url 网页
    headers = {
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
    }

    r = requests.get(url, headers=headers)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    return r.text

def parse_data(html):  #2. 网页解析
    #根据 url 获取到的网页内容
    bsobj = bs4.BeautifulSoup(html,'html.parser')
    info = []
    # 获取电影列表
    tbList = bsobj.find_all('table', attrs = {'class': 'tbspan'})
    # 对电影列表中的每一部电影单独处理
    for item in tbList:
        movie = []
        link = item.b.find_all('a')[1]
        #print(link)
        # 获取电影的名称
        name = link['title']
        # 获取详情页面的 url
        url = 'https://www.dy2018.com' + link["href"]
        # 将数据存放到电影信息列表里
        # 访问电影的详情页面,查找电影下载的磁力链接
        temp = bs4.BeautifulSoup(get_data(url),'html.parser')
        tbody = temp.find_all('tbody')
        # 下载链接有多个(也可能没有),这里将所有链接都放进来
        for i in tbody:
            download = i.a.text
            #if 语句的判断,如果下载链接中包含 magnet:?xt=urn:btih 字符串,则视为有效链接,下载下来,否则跳过。
            if 'magnet:' in download:
                movie.append(name)
                movie.append(url)
                movie.append(download)
                # 将此电影的信息加入到电影列表中
                info.append(movie)
                break
    return info

def save_data(data):  #3.数据存储
    #将 data 中的信息输出到文件中/或数据库中,保存的数据
    try:
        os.mkdir("D:/film") #创建文件用于存储爬取到的数据
    except:
        ""
    file_name = 'D:/film/影片.csv'
    data_frame = pd.DataFrame(data)
    data_frame.to_csv(file_name, mode='a', index=False, sep=',', header=False) 

def download(links):#下载电影
    imageData = pd.read_csv('D:/film/影片.csv',names=['name','link','download'])
    # 获取电影的下载链接,并用换行符分隔
    a_link = imageData['download']
    links = '\n'.join(a_link)
    # 复制到剪切板
    pyperclip.copy(links)
    # 打开迅雷
    thunder_path = r'C:\Program Files (x86)\ThunderNetwork\Thunder\Program\ThunderStart.exe'
    os.startfile(thunder_path)
    
def main():   #4. 爬虫
    #循环爬取多页数据
     """
    1、剧情片
 	2、喜剧片
 	3、动作片
 	4、爱情片
 	5、科幻片
 	6、动画片
 	7、悬疑片
 	8、惊悚片
 	9、恐怖片
 	10、纪录片
 	11、音乐歌舞题材电影
 	12、传记片
 	13、历史片
 	14、战争片
 	15、犯罪片
 	16、奇幻电影
 	17、冒险电影
 	18、灾难片
 	19、武侠片
 	20、古装片
     """
    StaNO=int(input("请输入下载起始影视种类: "))  #1-20
    EndNO=int(input("请输入下载结束影视种类: "))  #1-20
    #每类电影下载页数选择
    page_stanum=int(input("请输入下载起始页面:  ")) 
    page_endnum=int(input("请输入下载结束页面: "))
    for NOnum in range(StaNO,EndNO):
        for page in range(page_stanum,page_endnum):
            print('正在爬取:第' + str(NOnum)+'-'+str(page) + '页......')       
            # 根据之前分析的 URL 的组成结构,构造新的 url
            if page == 1:
                index = 'index'
            else:
                index = 'index_' + str(page)           
            url = 'https://www.dy2018.com/'+str(NOnum)+'/' + index +'.html'
            # 依次调用网络请求函数,网页解析函数,数据存储函数,爬取并保存该页数据
            html = get_data(url)
            movies = parse_data(html)
            links = save_data(movies)
            print('第' +str(NOnum)+'-'+ str(page) + '页完成!')
    download(links)

if __name__ == '__main__':  #5. 程序入口
    main()



;