扩散模型DiT：纯Transformer架构替换传统的U-Net主干

SORA新手 • 2024年03月04日 • AI论文 • 阅读：1578 • 评论(0)

DiT扩散模型，出自谢赛宁与Sora研发之一威廉·皮波尔斯合著的一篇论文《Scalable diffusion models with transformers》，它不仅将 Transformer 成功应用到了扩散模型上，还深入探究了transformer架构在扩散模型上的scalability能力。

DiT扩散模型，出自谢赛宁（Saining Xie）与Sora研发负责人之一威廉（比尔）皮波尔斯（William Peebles）合著的一篇论文《Scalable diffusion models with transformers》。

在Sora发布后，OpenAI的技术报告中曾引用了这项研究成果。

核心思想

提出了一种新的（可扩展）扩散模型架构，称为 DiT，该架构使用 Transformer 替换了传统的 U-Net 主干。

扩散模型之DiT：纯Transformer架构

在ViT之前，扩散模型大部分都是采用UNet架构来进行建模的，UNet可以实现输出和输入一样维度，所以天然适合扩散模型。扩散模型使用的UNet除了包含基于残差的卷积模块，同时也往往采用self-attention。

ViT之后，Transformer 架构很快开始大量应用在图像任务上，随着扩散模型的流行，采用 Transformer 架构来对扩散模型建模终于出现。

DiT就是较早，也对之后影响较大的探索之一。

它不仅将 Transformer 成功应用到了扩散模型上，还深入探究了transformer架构在扩散模型上的scalability能力，其中最大的模型DiT-XL/2在ImageNet 256x256的类别条件生成上达到了SOTA（FID为2.27）。

论文下载地址

arxiv 原址下载：Scalable Diffusion Models with Transformers

本站加速下载：Scalable Diffusion Models with Transformers

论文解读推荐：

华中科技大学工学硕士小小将（知乎ID）发布在知乎专栏的《扩散模型之DiT：纯Transformer架构》，地址： https://zhuanlan.zhihu.com/p/641013157

本文标签：DiT Transformer 扩散模型谢赛宁

扩散模型DiT：纯Transformer架构替换传统的U-Net主干

核心思想

论文下载地址

Tokyo walk 漫步东京 SORA官方演示的惊艳文生视频

中文版SORA何时落地？期待千模相竞

留个言吧抢沙发

核心思想

论文下载地址

Tokyo walk 漫步东京 SORA官方演示的惊艳文生视频

中文版SORA何时落地？期待千模相竞

相关文章

国产SORA 七火山Etna文生视频模型发布

Boximator: 通过“框”为图生视频生成丰富可控的运动

留个言吧 抢沙发

留个言吧抢沙发