DeepSeek信息看腻了？来看看港大字节联手发布的视频生成模型！

大家好，我是星河。

相信最近大家都被DeepSeek刷屏了吧，漫天遍野都是“DeepSeek的部署方法”“DeepSeek使用技巧”“DeepSeek学习教程”等等，是不是感觉有点审美疲劳了呢？那么今天，星河带大家来看一点不一样的东西，也让大家了解下除语言之外的大模型。

先来看一段人物对商品的交互讲解视频：

你敢相信，这样自然逼真的视频居然仅仅通过一张商品图+文字prompt就生成了吗？但这就是事实，使用的提示词如下：

The woman stands behind a colorful Minnie Mouse product, her head gently swaying left and right as she speaks animatedly. Her hands rest on the table, framing the product, while her mouth opens and closes with noticeable emphasis, conveying her enthusiasm and detailed explanation. The camera remains steady, capturing her expressive gestures and the vibrant design of the product in front of her.（女士站在一个色彩缤纷的米妮老鼠产品后面，她的头部轻轻地左右摆动，边说边展现生动的表情。她的手搭在桌子上，框住了产品，同时她的嘴巴张开合上，明显强调着，传达出她的热情和详尽的解释。摄像机保持稳定，捕捉到她富有表现力的手势和她面前产品的鲜艳设计。）

再来看看下面这一幕，你能想象这不是来自欧巴电视剧，而是AI生成的吗！

造出它们的新视频生成模型，名为Goku(悟空)，由港大字节联手发布。它是一系列基于rectified flow Transformer的模型，专为图像和视频联合生成而设计，支持文生视频、图生视频、文生图。另外还有Goku+，是视频广告基础模型，官方更是直言“它能以比原来低100倍的成本创建广告视频”。

Goku生成商品广告手拿把掐，无论是展示食物还是化妆品都很逼真自然，人物神情也很难看出破绽：

以下生成的吃播视频更是让人分不出真假：

在定性和定量评估中，Goku文本到图像生成GenEval得分0.76和DPG-Bench得分83.65；文本到视频生成VBench得分84.85，一举拿下新SOTA。

这太酷了有没有!官方已经放出了技术报告，对技术感兴趣的同学可以到这里查看：https://arxiv.org/abs/2502.04896。但是比较遗憾的是，目前模型还没有向普通人开放，暂时还不能玩，想要真的上手可能还要再等几天。

---------------

关注公众号“星河AI观测站”，领取DeepSeek及AI学习资料~

DeepSeek信息看腻了？来看看港大字节联手发布的视频生成模型！

悦读