Bootstrap

Video-P2P:通过控制 cross-attention 编辑视频

Paper: Liu S, Zhang Y, Li W, et al. Video-p2p: Video editing with cross-attention control[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 8599-8608.
Introduction: https://video-p2p.github.io/
Code: https://github.com/dvlab-research/Video-P2P

在这里插入图片描述

Video-P2P 是第一个实现真实世界视频编辑的框架,将图像生成扩散模型适配于视频编辑任务。Video-P2P 先微调一个文本到集合的模型来进行反演,然后优化一个共享的无条件嵌入,以小内存代价实现准确的视频反转。在注意力控制方面,Video-P2P 引入了一种解耦引导策略,为源提示和目标提示使用不同的引导策略。针对源提示优化的无条件嵌入提高了重建能力,而为目标提示初始化的无条件嵌入增强了可编辑性。将这两个分支的注意力图结合起来,使得编辑更加精细。

在这里插入图片描述

复现

实验过程

  1. 克隆仓库后,创建虚拟环境 vp2p 并按照 README 安装依赖;

  2. 初始化模型时遇到 ImportError: cannot import name 'cached_download' from 'huggingface_hub' 报错:
    在这里插入图片描述
    ~/anaconda3/envs/vp2p/lib/python3.9/site-packages/diffusers/dynamic_modules_utils.py 中的 from huggingface_hub import HfFolder, cached_download, hf_hub_download, model_info 注释掉即可 1

  3. 然后又遇到 NotImplementedError: Using RTX 4000 series doesn't support faster communication broadband via P2P or IB. 报错:
    在这里插入图片描述
    运行时加上 NCCL_P2P_DISABLENCCL_IB_DISABLE 参数即可:NCCL_P2P_DISABLE="1" NCCL_IB_DISABLE="1" python run_tuning.py --config="configs/rabbit-jump-tune.yaml"

  4. 又遇到 RuntimeError: Numpy is not available 报错:
    在这里插入图片描述numpy 降级成 1.26.4 即可 2pip install numpy==1.26.4

实验结果

原视频:

编辑视频:


  1. cannot import name ‘cached_download’ from ‘huggingface_hub’ #1851 ↩︎

  2. RuntimeError: Numpy is not availableL Using numpy with torch [duplicate] ↩︎

;