扩散模型DiT:纯Transformer架构替换传统的U-Net主干

SORA新手 2024年03月04日 AI论文 阅读:817 评论(0)

DiT扩散模型,出自谢赛宁与Sora研发之一威廉·皮波尔斯合著的一篇论文《Scalable diffusion models with transformers》,它不仅将 Transformer 成功应用到了扩散模型上,还深入探究了transformer架构在扩散模型上的scalability能力。

DiT扩散模型,出自谢赛宁(Saining Xie)与Sora研发负责人之一威廉(比尔)皮波尔斯(William Peebles)合著的一篇论文《Scalable diffusion models with transformers》。

在Sora发布后,OpenAI的技术报告中曾引用了这项研究成果。

核心思想

提出了一种新的(可扩展)扩散模型架构,称为 DiT,该架构使用 Transformer 替换了传统的 U-Net 主干。

扩散模型之DiT:纯Transformer架构

在ViT之前,扩散模型大部分都是采用UNet架构来进行建模的,UNet可以实现输出和输入一样维度,所以天然适合扩散模型。扩散模型使用的UNet除了包含基于残差的卷积模块,同时也往往采用self-attention。

ViT之后,Transformer 架构很快开始大量应用在图像任务上,随着扩散模型的流行,采用 Transformer 架构来对扩散模型建模终于出现。

DiT就是较早,也对之后影响较大的探索之一。

它不仅将 Transformer 成功应用到了扩散模型上,还深入探究了transformer架构在扩散模型上的scalability能力,其中最大的模型DiT-XL/2在ImageNet 256x256的类别条件生成上达到了SOTA(FID为2.27)。

论文下载地址

arxiv 原址下载:Scalable Diffusion Models with Transformers

本站加速下载:Scalable Diffusion Models with Transformers

论文解读推荐:

华中科技大学工学硕士 小小将(知乎ID)发布在知乎专栏的《扩散模型之DiT:纯Transformer架构》,地址: https://zhuanlan.zhihu.com/p/641013157

留个言吧 抢沙发