Bootstrap

python多进程踩的一些坑

背景:需要对数据集做一些预处理,了解到python多进程 用的multiprocessing.Pool处理

def deal_data():
    start = time.time()
    path1 = r'./mini-5/train'
    path2 = r'./mini-5/val'
    img_paths = get_file_path(path1, path2)
    print("all:", len(img_paths))

    # 1.
    avi_cpu = os.cpu_count()-30
    print('there is {} cpu'.format(avi_cpu))
    pool = Pool(avi_cpu) # 当前可用cpu数量-10

    pool.map(process_image, img_paths)

    # res = []
    # for img in img_paths:
    #     r = [pool.apply_async(process_image, (img,))]
    #     res.append(r)
    #2.该情况处理进程直接跳过

    # pool = multiprocessing.Pool()
    # cpus = multiprocessing.cpu_count()
    # print('there is {} cpu'.format(cpus))
    # # 任务切分
    # splits = list(divide(cpus, img_paths))
    # for split in splits:
    #     pool.apply_async(process_image, args=(split,))
    pool.close()
    pool.join()

    end = time.time()
    print("deal data cost:", end - start)

问题:

在处理第一五分类flower数据集的时候一切正常,处理进程结束后,主进程正常进行下一步操作

在处理第二个数据时候(我从imagenet中抽出的5个类共两千多张图片),处理完之后,多进程总会在最后卡主,基本上都处理完了,就是退不出多进程,无法进行后面的操作,起初以为是因为图片较大的原因,因为我的处理函数是计算密集型 有不少for循环,但我在处理之前先进行resize还是跳不出,就像进入了死锁一样。

待解决:
pool.map
pool.map_async
pool.apply
pool.apply_async
以上都试过

;