Boximator: 通过“框”为图生视频生成丰富可控的运动

字节跳动的Boximator,含义是Box+Animator,引入了硬框、软框两种约束类型,确定运动对象在视频未来帧中的位置、形状或运动路径,通过辅助插件的形式,帮助用户在视频合成中创建丰富、可控的运动和动态。

2024年3月14日 09:07 阅读202

扩散模型DiT:纯Transformer架构替换传统的U-Net主干

DiT扩散模型,出自谢赛宁与Sora研发之一威廉·皮波尔斯合著的一篇论文《Scalable diffusion models with transformers》,它不仅将 Transformer 成功应用到了扩散模型上,还深入探究了transformer架构在扩散模型上的scalability能力。

2024年3月04日 15:17 阅读623