国产SORA 七火山Etna文生视频模型发布

七火山发布Etna文生视频模型,可生成8-15秒4K高清视频,帧率高达60FPS,它采用最新DiT架构,加入时空卷积和注意力层,同时保持稳定和连续,超20亿参数训练,视频流畅自然,最高分辨率3840*2160,画面细腻逼真。

2024年3月14日 15:29 阅读510

扩散模型DiT:纯Transformer架构替换传统的U-Net主干

DiT扩散模型,出自谢赛宁与Sora研发之一威廉·皮波尔斯合著的一篇论文《Scalable diffusion models with transformers》,它不仅将 Transformer 成功应用到了扩散模型上,还深入探究了transformer架构在扩散模型上的scalability能力。

2024年3月04日 15:17 阅读1579