背景:需要对数据集做一些预处理,了解到python多进程 用的multiprocessing.Pool处理
def deal_data():
start = time.time()
path1 = r'./mini-5/train'
path2 = r'./mini-5/val'
img_paths = get_file_path(path1, path2)
print("all:", len(img_paths))
# 1.
avi_cpu = os.cpu_count()-30
print('there is {} cpu'.format(avi_cpu))
pool = Pool(avi_cpu) # 当前可用cpu数量-10
pool.map(process_image, img_paths)
# res = []
# for img in img_paths:
# r = [pool.apply_async(process_image, (img,))]
# res.append(r)
#2.该情况处理进程直接跳过
# pool = multiprocessing.Pool()
# cpus = multiprocessing.cpu_count()
# print('there is {} cpu'.format(cpus))
# # 任务切分
# splits = list(divide(cpus, img_paths))
# for split in splits:
# pool.apply_async(process_image, args=(split,))
pool.close()
pool.join()
end = time.time()
print("deal data cost:", end - start)
问题:
在处理第一五分类flower数据集的时候一切正常,处理进程结束后,主进程正常进行下一步操作
在处理第二个数据时候(我从imagenet中抽出的5个类共两千多张图片),处理完之后,多进程总会在最后卡主,基本上都处理完了,就是退不出多进程,无法进行后面的操作,起初以为是因为图片较大的原因,因为我的处理函数是计算密集型 有不少for循环,但我在处理之前先进行resize还是跳不出,就像进入了死锁一样。
待解决:
pool.map
pool.map_async
pool.apply
pool.apply_async
以上都试过