从Sora展开，全面解读AI视频大模型发展史

2025-03-14 • 舞蹈社区 • 作者：小编

Sora的展示，毫无疑问是吊打此前的runway和pikalabs的。

第六，Sora模型已经可以简单地模拟世界状态的动作。比如说，画家在画布上留下新的笔触，这些笔触会随着时间的推移而持续存在，或者一个人吃汉堡的时候会留下汉堡上的咬痕。有比较乐观的解读认为，这意味着模型具备了一定的通识能力、能“理解”运动中的物理世界，也能够预测到画面的下一步会发生什么。

接下来，我们就来试图回顾一下生成式AI大模型的技术发展之路，以及试图解析一下，Sora的模型是怎么运作的，它到底是不是所谓的“世界模型”？

扩散模型技术路线:GoogleImagen，Runway，PikaLabs

‍

什么是扩散模型？

张宋扬博士，MetaMake-A-Video模型的论文作者之一、亚马逊AGI团队应用科学家：

2）扩散过程（也被称为前向过程forwardprocess）：扩散过程的目标是让图片变得不清晰，最后变成完全的噪声。

3）反向过程（reverseprocess，又被称为backwarddiffusion）：这时候我们会引入“神经网络”，比如说基于卷积神经网络（CNN）的UNet结构，在每个时间步预测“要达到现在这一帧模糊的图像，所添加的噪声”，从而通过去除这种噪声来生成下一帧图像，以此来形成图像的逼真内容。

以上是videotovideo或者是picturetovideo的生成方式，也是runwayGen1的大概底层技术运行方式。如果是要达到输入提示词来达到texttovideo，那么就要多加几个步骤。

比如说我们拿谷歌在2022年中旬发布的Imagen模型来举例：我们的提示词是aboyisridingontheRocket，骑着火箭的男孩。这段提示词会被转换为tokens（标记）并传递给编码器textencoder。谷歌IMAGEN模型接着用T5-XXLLLM编码器将输入文本编码为嵌入（embeddings）。这些嵌入代表着我们的文本提示词，但是以机器可以理解的方式进行编码。

之后这些“嵌入文本”会被传递给一个图像生成器imagegenerator，这个图像生成器会生成64x64分辨率的低分辨率图像。之后，IMAGEN模型利用超分辨率扩散模型，将图像从64x64升级到256x256，然后再加一层超分辨率扩散模型，最后生成与我们的文本提示紧密结合的1024x1024高质量图像。

简单总结来说，在这个过程中，扩散模型从随机噪声图像开始，在去噪过程中使用编码文本来生成高质量图像。

扩散模型优劣势

张宋扬博士，MetaMake-A-Video模型的论文作者之一、亚马逊AGI团队应用科学家：

扩散模型比起之前的GAN等模型来说，有三个主要的优点：

第一，稳定性：训练过程通常更加稳定，不容易陷入模式崩溃或模式塌陷等问题。

第三，无需特定架构：扩散模型不依赖于特定的网络结构，兼容性好，很多不同类型的神经网络都可以拿来用。

然而，扩散模型也有两大主要缺点，包括：

首先，训练成本高：与一些其他生成模型相比，扩散模型的训练可能会比较昂贵，因为它需要在不同噪声程度的情况下学习去燥，需要训练的时间更久。

张宋扬博士，MetaMake-A-Video模型的论文作者之一、亚马逊AGI团队应用科学家：

简单来说，基于大语言模型的Videopoet是这样运作的：

先来说说优点：

再来说说缺点：

张宋扬博士，MetaMake-A-Video模型的论文作者之一、亚马逊AGI团队应用科学家：

Transformer模型的另外一些问题还包括：

不过说到第五点，我突然想起来最近的这么一个新闻，说谷歌的多模态大模型Gemini中，无论你输入什么人，出来的都是有色人种，包括美国开国元勋，黑人女性版本的教皇，维京人也是有色人种，生成的ElonMusk也是黑人。

这背后的原因可能是谷歌为了更正Transformer架构中的偏见，给加入了AI道德和安全方面的调整指令，结果调过头了，出了这个大乌龙。不过这个事情发生在OpenAI发布了Sora之后，确实又让谷歌被群嘲了一番。

不过，业内人士也指出，以上的这五点问题也不是transformer架构所独有的，目前何生成模型都可能存在这些问题，只是不同模型在不同方向的优劣势稍有不同。

Sora的扩散+大语言模型：1+12？

但我们先从Sora公开的这篇技术解析，来看看OpenAI的扩散+大语言模型技术路线是如何操作的。

所以，Sora模型的生成的步骤包括：

第二步：文本理解

第三步：DiffusionTransformer成像

Sora采用了Diffusion和Transformer结合的方式。

目前外界有一些观点猜测，在我们之前说到的扩散模型的第三步骤中，Sora选择将U-Net架构替换成了Transformer架构。这让Diffusion扩散模型作为一个画师开始逆扩散、画画的时候，在消除噪音的过程中，能根据关键词特征值对应的可能性概率，在OpenAI海量的数据库中，找到更贴切的部分，来进行下笔。

我在采访另一位AI从业者的时候，他用了另外一个生动的例子解释这里的区别。他说：“扩散模型预测的是噪音，从某个时间点的画面，减去预测的噪音，得到的就是最原始没有噪音的画面，也就是最终生成的画面。这里更像是雕塑，就像米开朗基罗说的，他只是遵照上帝的旨意将石料上不应该存在的部分去掉，最终他才从中创造出伟大的雕塑作品。而Transformer通过自注意力机制，理解时间线之间的关联，让这尊雕塑从石座上走了下来。”是不是还挺形象的？

说实话，Transformer加扩散模型的方法论并不是OpenAI独创的，在OpenAI发布Sora之前，我们在和张宋扬博士今年一月份采访的时候，他就已经提到说，Transformer加扩散模型的方式已经在行业中开始普遍的被研究了。

张宋扬博士，MetaMake-A-Video模型的论文作者之一、亚马逊AGI团队应用科学家：

所以，这也解释了为什么OpenAI现在要发布Sora，其实在OpenAI的论坛上，Sora方澄清说，Sora现在并不是一个成熟的产品，所以，它不是已发布的产品，也不公开，没有等候名单，也没有预计的发布日期。

张宋扬博士，MetaMake-A-Video模型的论文作者之一、亚马逊AGI团队应用科学家：

以上是我们对Sora非常初步的分析，再次说明一下，因为Sora非常多技术细节没有公开，所以我们的很多分析也是从外部视角去做的一个猜测，如果有不准确的地方，欢迎大家来纠错，指正和探讨。

免责声明：本文章如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系