如何使用python爬虫实现网页视频自动下载并保存:
-
使用python爬取页面,然后自动下载视频,但是这样会有一个问题,我并不是需要所有视频,有些是垃圾视频不需要下载,python似乎还没法做到识别我对哪些视频是有价值的,所以这一步人工绕不开,我选择直接把目标视频的详情页直接右键另存为本地html文件,随后再用python批量处理这些本地的html文件。
-
解析html文件取出视频的标题和下载url,按格式存为本地json
-
读取json,循环下载整个list的视频,并按配置给视频命名
目标功能点
-
递归读取html列表
-
研究html内格式、解密url
-
保存解析产物为json
-
读取json下载保存视频
功能点代码
这一步可以将每一个html文件的路径从Downloads文件夹取出来。
def get_all_path():
global train_path, all_path, labels
train_path, all_path, labels = "./Downloads", [], []
# 递归获取文件夹内文件列表
def get_label_and_wav(path, file):
dirs = os.listdir(path)
for a in dirs:
# print(a)
# # 是否为文件夹
# print(os.path.isfile(path + "/" + a))
if os.path.isfile(path + "/" + a):
all_path.append(dirs)
if file != "":
labels.append(file)
else:
get_label_and_wav(str(path) + "/" + str(a), a)
# 循环遍历这个文件夹
return all_path, labels