字节跳动的Boximator,含义是Box+Animator,引入了硬框、软框两种约束类型,确定运动对象在视频未来帧中的位置、形状或运动路径,通过辅助插件的形式,帮助用户在视频合成中创建丰富、可控的运动和动态。
DiT扩散模型,出自谢赛宁与Sora研发之一威廉·皮波尔斯合著的一篇论文《Scalable diffusion models with transformers》,它不仅将 Transformer 成功应用到了扩散模型上,还深入探究了transformer架构在扩散模型上的scalability能力。