SORA和大语言模型的区别-3.技术架构：

SORA利用了扩散模型和Transformer架构，这使得它不仅具备从文本生成视频的能力，还能从静态图片或扩展已有视频中生成新的内容。SORA是一种类似DiT的扩散模型（DiT的架构如上图所示），舍弃了传统的U-Net架构，性能相比U-Net更优，同时继承了 Transformer 模型类出色的缩放特性。
SORA同时采用NaViT的patch打包在同一序列的方法，实现可变的持续时间、分辨率、宽高比等效果。
而大语言模型则侧重于使用Transformer架构来理解和生成文本内容。
NaViT把来自不同图像的多个patch打包在一个序列中，这样可以在保持纵横比的同时实现可变分辨率