Bootstrap

浅谈人工智能之基于容器云进行文生视频大模型搭建

浅谈人工智能之基于容器云进行文生视频大模型搭建

引言

随着深度学习技术的不断发展,文生视频(Text-to-video)大模型成为了计算机视觉和自然语言处理领域的一个研究热点。文生视频模型可以根据输入的文本描述生成高质量的视频,广泛应用于艺术创作、广告设计、虚拟现实等领域。本文将介绍如何搭建一个基于iiic/text-to-video-synthesis的文生视频大模型。

模型效果展示

我们首先看一下我们对搭建好的模型的效果进行展示,我们的提示词如下“

A pretty girl eating noodels on a rock.

我们得到的视频如下结果如下:
在这里插入图片描述

环境搭建

基于上一篇文生图的模型搭建,我们进行文生视频的搭建。
第一步:依赖安装

pip install accelerate
pip install einops

第二步:模型下载调用

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys

p = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis')

test_text = {
        'text': 'A pretty girl eating noodels on a rock.',
    }
output_video_path = p(test_text, output_video='./output.mp4')[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)

第三步:执行上述py文件

python video.py

第四步:如果在跑py的期间提示安装依赖包,则根据提示的信息对依赖包进行安装。
至此我们就简单的一个文生视频环境搭建完成。

;