文生视频Sora模型发布，是否引爆AI芯片热潮

文生视频Sora模型发布，是否引爆AI芯片热潮

1. 引言

在人工智能的历史长河中，每一次技术的飞跃都伴随着社会生产力的巨大变革。自2015年以来，深度学习技术的突破性进展，尤其是在自然语言处理、图像识别和机器学习等领域的成功应用，已经彻底改变了我们对机器智能的认识和期待。这些技术的进步不仅仅是理论上的突破，更是实际应用的革命，它们正在逐步渗透到我们生活的方方面面，从自动驾驶到智能家居，从数据分析到内容创作。
在这样的背景下，OPENAI最近发布的Sora模型无疑是又一次令人瞩目的里程碑。Sora模型基于扩散模型，能够将简单的文本描述转换成为高质量的视频内容。这种能力不仅仅是技术上的创新，更是对视频制作、媒体传播乃至整个娱乐产业的挑战和机遇。

2. 前方警告，Sora来袭！

让我们先来感受一下Sora的魔力

当然也有一些诡异的输出。

3. 浅析Sora的技术亮点

在Open AI给出的技术报告【1】中，笔者挖出了两点Sora的技术要点，分享如下：
1-视觉数据基建----时空碎片（Spacetime Patches）
以chatGPT为例，大语言模型首先通过Embedding将人类语言“编码”，然后通过注意力机制Attention提取各种丰富的知识和结构，以加权的形式学习并建立“关键词”之间的联系，最后再“反编码”，以人类的语言输出返回结果。
语言模型中构建关键词联系
与LLM-NLP思路一致，Sora的第一步是针对视觉数据的建模：首先将视频压缩到一个低维的潜在空间，然后将其分解为时空碎片，这些“碎片”的集合作为Sora吃进的“语料”。这里的“碎片”-Patches，等同于语言模型中的Tokens，它帮助Sora获得了自然语言处理特性。
视频素材分解为时空碎片
进一步，Sora团队构建了“智能字幕“模型DALL.E3，其建立起了Patches到Tokens之间的联系，实现了文本与视频的互译。使得GPT丰富的文本数据被有效的应用于Sora的训练，这极大地促进了Sora的诞生。
其次，由于Patches高度可扩展的表示特性，使得Sora能够应用于广泛的图像和视频编辑任务（图像就是厚度为1的视频，分辨率、形状等属性变换都可以体现为Patches的排列组合）。
2-反向学习----扩散模型（Diffusion Transformers–DiT）【2】
扩散模型是一种深度生成模型，其基本思想就是通过一个可逆的过程，将结构化数据（如图片）逐步转化为无结构的噪声数据，然后再逆向这个过程，从噪声中恢复出原始数据或生成新的数据实例。简而言之，就是让模型从图像的模糊还原中学习图像生成。
在这里插入图片描述
而DiT相对于传统的扩散模型做出了如下改进：
 使用Transformer替换U-Net，使得模型能够更好的处理长距离依赖性；
 验证了Transformer架构在扩散模型上的可扩展性，随着模型计算复杂度的上升，生成质量稳步提升。
 使用Latent diffusion取代pixel diffusion，降低了模型计算量。
扩散模型DiT
在Sora的技术报告中，OpenAI 称Sora摒弃了“其他文生视频模型调整视频大小、裁剪或修剪到标准大小的通常做法”，以可变时长、分辨率与长宽比来训练视频生成，从而获得了重要优势。
从报告中展示的成果来看，Sora在视频生成上展现出了强大的涌现能力：人和景物在三维空间移动的一致性；长程时间相关性与对象持久性，如事物被遮挡后重现；事物与周边世界的互动性等等。

4. Not for play, But change world!

OpenAI在Sora的技术报告中毫不吝惜夸赞的言词，并对Sora的潜力充满期待。他们认为持续扩大视频模型的规模，将可以用来模拟整个物理和数字世界。这一愿景深深地震撼了笔者本人！
OpenAI的宏大目标
伴随着笔者对知乎、csdn、facebook的疯狂查阅，有另一种声音愈发强烈。原本笔者只是惊讶于Sora视频的丝滑，清晰与文本生成的简易。而更多的大佬，纷纷指出，Sora视频毫无违和感，没错！就是毫无违和感，它所展现的光影效果与碰撞遮挡，太真实了！Sora对于图像与视频的处理仅仅是其能力的表象，真相是，Sora是真的在理解地球物理世界的规律，而且取得了巨大的进展。
在这里插入图片描述
未来已来，只是尚未流行
“Sora 是一个数据驱动的物理引擎！“NVIDIA研究科学家Jim Fan在Twitter上发文。
“Sora不讲武德，一句话就有连续的视频，毁灭吧，计算机图形学！毁灭吧，游戏引擎！“计算机图形学学者谭剑如是说。
“去他喵的物理公式，宇宙的终极是概率！“
……
红衣教主周鸿祎曾表示：一旦人工智能接上摄像头，对世界的理解将远远超过文字学习，一幅图胜过千言万语，而视频传递的信息量又远远超过一幅图，这就离AGI（通用人工智能）真的不远了，不是10年、20年的问题，可能一两年很快就可以实现。
而当下，Sora突破了，它实现了机器对这个世界的感知、观察和交互的能力，也就是说真正的给人工智能补上了眼睛。不难想象，在AI如此尽力的发展下，元宇宙般的梦幻世界仿佛近在咫尺。
在这里插入图片描述

AI在疯狂汲取人类文明与客观世界的知识

5. Sora的成本与OpenAI的7万亿美金豪赌

“很少有人提到 Sora 视频生成的成本。用 Sora 生成 1 分钟的视频估计需要几十美金，比RunwayML的Gen2（大约一分钟10美金）还贵，而很多人会选择性的忽略成本。比如 GPT-4 支持128K上下文的时候，很少有人提到用一次128K上下文需要1.28美金。今天 Gemini 1.5说支持10M上下文了，却并没有人知道这10M上下文的成本是多少。视频生成如果成本高达一分钟几十美金，那就只能受限于专业的影片和游戏制作人，没法用来生成抖音短视频。这就是为什么OpenAI要搞7万亿美金来造芯片。很多人觉得Sam Altman疯了，但我觉得他看到了AI真正的瓶颈——算力。“ ----知乎作者-李博杰
这样的判断很快迎来了资本市场的认证。继2月15日Sora爆炸问世后一周，全世界的投资人，都把目光投向了全球芯片巨头——英伟达。截至当地时间2月22日收盘，英伟达报785.38美元，涨16.4%，创历史新高，市值逼近2万亿美元，成为微软、苹果之后第三高。其市值一夜增长2733亿美元（约合人民币2万亿元）。相当于增加了一整个Netflix或一整个Adobe，约等于一个茅台三个宁德时代！皮衣刀客黄仁勋身家超越中国首富、农夫山泉创始人钟睒睒，升至全球富豪榜第 21 位。
不得不说“淘金的还没起飞，但卖铲子的倒是真的起飞了，哈哈哈哈！”

在这里插入图片描述
黄仁勋眺望未来

6. 算力，未来在何方？

正所谓：哪里有需求，哪里就有市场！Sora的火爆与NVIDIA的成功又再一次印证了人工智能的影响力及其发展的紧迫性，这促使着“国产算力替代”又再一次回到了发展舞台的中心。过去的时间里，在中美博弈，芯片法案的压力下，催生出了一系列AI芯片独角兽，大家也都在各自的技术路线上奋起直追。这包括全志科技多目异构视觉芯片“V853”，云天励飞多芯粒集成CV加速单元“DeepEdge10”，清华大学的智能驾驶计算芯片“惊蛰R1”，时识科技“感算一体”动态视觉SoC“Speck”，以及知存科技的“存算一体”AI视觉芯片“WTM8系列”。与此同时，芯片架构设计、芯片验证以及编译工具链开发等AI芯片岗也引发了新一轮的人才需求热潮。
值得一提的是，在新一轮算力攻坚赛中，突破传统冯·诺依曼架构的范式探索成为主要方向之一。而“存算一体”架构打破了存算分离的壁垒，减少了数据的搬运，它就如同“在家办公”的新型工作模式，消除了数据“往返通勤“的能量消耗、时间延迟，并且节约了“办公场所”的运营成本，因而具备高能效比。加上“存算一体”架构对于工艺制程的“弱依赖”性（14nm展现4nm数字电路表现性能），使其成为了AI算力的重要发展方向。

在这里插入图片描述
Intel Lab 的大规模存算核拓扑规则【3】
从存算一体技术发展来看：
规模正在几何扩增。上图是2024年英特尔实验室新鲜出炉的存算一体架构大规模扩展拓扑图，可以清晰的看到64核拓扑，笔者印象2023年底的时候，4核才刚进入使用。
精度正在更进一步。从4比特到8比特到10比特。最新消息，AI芯片公司TetraMem及其合作伙伴，继2023年3月突破11比特后，于今年2月23日又在《科学》上发表重大突破：以忆阻器为核心的全新架构，突破实现任意高精度模拟计算【4】。
按照存算架构相对于传统数字电路10倍的能效表现，只能说其作为超大模型的支持潜力在逐渐被挖掘，属于它的时代即将到来。

7. Finally！

可以预见的是，AI的成长会以不可思议的速度多向发展，AI的成长基石：数据、算力、能源将会成为社会发展的重要引擎。笔者在此热烈邀请大家共同关注，共同学习，共同迎接美好的明天！

引用：
【1】Technical report of Sora: Video generation models as world simulators (openai.com)
【2】Scalable Diffusion Models with Transformers：https://doi.org/10.48550/arXiv.2212.09748
【3】Towards Joint Modeling of Dialogue Response and Speech Synthesis based on Large Language Model：https://doi.org/10.48550/arXiv.2309.11000
【4】Programming memristor arrays with arbitrarily high precision for analog computing：https://www.science.org/doi/10.1126/science.adi9405
【5】另外，找到了一篇Sora的技术详解，有兴趣的朋友请见：最强文生视频模型 SORA 技术路线解读 (yuque.com)