Sora要解决的核心问题
Sora面临的挑战是将不同类型的视觉信息,如视频、文本、图像和声音等,整合为一种共同的表征形式。这种转换是实现统一训练过程的关键,旨在将各类数据集中到一个训练框架中,以便于进行大规模的统一学习。简而言之,OpenAI的目标是将视频数据和其他多种类型的数据结合起来,在一个统一的训练环境中进行处理和学习。
AI视频思路1:
在视频生成领域,有一种方法是基于单帧图像内容进行扩展,即通过分析当前帧的图像来预测下一帧的内容。这种方法将每一帧视为前一帧的自然延伸,从而创建出连续的视频流。
在制作视频时,为了提高稳定性,通常的步骤是先使用文本描述生成初始的图像,然后再基于这些图像生成视频。然而,这个过程存在一个核心问题:由于AI从文本生成图像本身就具有一定的随机性,这种随机性在基于图像生成视频的过程中被放大,导致最终的视频结果难以预测和控制。
这种方法的局限性在于,生成的帧之间缺乏深层的语义理解和本质联系。由于每帧图像的生成相对独立,这使得在文本到视频或图像到视频的转换过程中难以实现精确的控制和稳定性。以stable diffusion体系下的animediff为例,这种技术常常产生出变幻莫测的效果,不适合用于需要稳定输出的视频生成。
尽管如此,这种方法在视频转视频的应用场景中表现出色。例如,在B站上,许多美女跳舞的视频就是通过逐帧重绘技术制作的。这种方法允许创作者轻松改变视频的风格,从而创造出多样化的视觉效果。
AI视频思路2:
在视频生成领域,另一种更为主流的方法是直接对视频本身进行训练。这种方法认识到,基于单帧推导的视频效果并不理想,因此转而关注于视频内容的整体训练。
这种主流方法的操作步骤是,每次选取一段4秒钟的视频片段,并告诉AI这段视频的内容是什么。通过大规模的训练,AI可以学会生成与训练片段相似风格的4秒钟视频。
选择4秒钟的时长主要是因为视频数据相对于图像来说非常大,而显卡的显存有限。在传统方法中,我们只能将有限的视频数据放入显存中进行训练。最初,AI视频的研究仅限于8帧或16帧的视频片段,随着技术的进步,这个时长逐渐扩展到了大约4秒钟。
在这方面,Runway和Pika这两家公司是该领域的代表,它们都能够完成从文本到视频和从图像到视频的生成任务。对于AI已经学习过的内容,它们在4秒内的表现效果较好。然而,由于每次训练只包含4秒钟的视频片段,AI学习到的是片段化的内容,这导致AI难以生成长视频,且视频的连续性和稳定性较差。
此外,由于AI只获得了片段化的记忆,它很难构建对现实世界的完整理解,其“知识量”非常有限,也没有涌现出新的能力。因此,当输入AI不熟悉的内容时,生成的效果可能会非常差。
为了突破AI视频生成的难题,我们必须解决这些核心问题,包括如何提高AI对视频内容的理解能力,如何增强视频生成的连续性和稳定性,以及如何扩展AI的知识量,使其能够处理更广泛的内容。
高效地训练大体量的视频数据
进一步考虑视频数据的多样性,我们发现视频可以呈现多种形式,包括横屏和竖屏格式,以及从4K高清到低分辨率的64x64像素马赛克图片等多种分辨率。这些视频数据来源多样,具有不同的分辨率、宽高比和属性,给AI训练带来了挑战。
为了应对这些挑战,必须开发一种统一的方法来对这些视频数据进行归一化处理,以便AI可以进行大规模训练。Sora的核心任务就是找到这样一种方法,它能够将不同类型的视觉数据转换为统一的表示形式,并实现集中训练。
Sora的工作重点是将海量的视频数据转换为适合Transformer架构处理的向量形式,以便进行后续的训练。为了实现这一目标,Sora采用了多种技术手段来逐步压缩和提炼视频中的核心内容,从而使得视频数据可以在统一的框架下进行有效的训练和学习。通过这种方式,Sora能够处理不同格式的视频数据,使其能够在AI训练过程中得到有效利用。
第一步:压缩原始视频,提炼视频特征
Sora的训练过程首先将原始视频数据转化为低维度的潜空间特征,这一步骤的目的是为了解决视频和图像数据在原始形式下体积过大的问题。在日常生活中,我们观看的视频和图片通常具有很高的分辨率,包含大量的像素信息。这些高分辨率的视频和图像数据对于计算机来说是非常庞大的,直接处理这样的数据会消耗大量的计算资源,包括内存和处理时间。
通过将视频数据转化为低维度的潜空间特征,Sora可以减少数据的复杂性,同时保留视频内容的关键信息。潜空间特征是一种压缩表示,它通过算法提取出数据中最显著和最重要的特征,并将其映射到一个维度更低的向量空间中。这个过程类似于将高维数据压缩到一个更加紧凑的形式,使