Boximator: 通过“框”为图生视频生成丰富可控的运动
字节跳动的Boximator,含义是Box+Animator,引入了硬框、软框两种约束类型,确定运动对象在视频未来帧中的位置、形状或运动路径,通过辅助插件的形式,帮助用户在视频合成中创建丰富、可控的运动和动态。
视频生成、合成中,运动呈现始终是一大难点,而运动的丰富多才、可控性,又是其中的两大关键且高难度挑战。
2月2日(2024年),来自字节跳动的AI技术团队,发表名为 Boximator: Generating Rich and Controllable Motions for Video Synthesis 的技术论文,提出了Boximator,一种新的细粒度运动控制方法。
作者:Jiawei Wang,Yuchen Zhang,Jiaxin Zou,Yan Zeng,Guoqiang Wei,Liping Yuan,Hang Li
项目地址:https://boximator.github.io/
Boximator方法解读
Boximator的含义是Box+Animator,一种image-to-video生成方法,引入了两种约束类型:
硬框和软框。
给定初始框(第一帧)和终止框(最后一帧,或某个关键帧),则被框住的物体将从初始框移动到终止框。
硬框限制了物体精准的上下左右边界,而软框不提供精准的边界,使用软框时,物体将移动到软框内部,用户使用硬框在条件帧中选择对象,然后使用任一类型的框粗略或严格地定义对象在未来帧中的位置、形状或运动路径。
核心算法同样有两个:
Boximator插件的设计、自跟踪(self-tracking)设计。
Boximator作为现有视频扩散模型的插件,训练过程通过冻结原始权重并仅训练控制模块来保留基础模型的知识,引入了一种新的自跟踪技术,大大简化了盒对象相关性的学习。
从经验上讲,Boximator实现了最先进的视频质量(FVD)分数,在两个基本模型上进行了改进,并在纳入框约束后进一步增强。
其强大的运动可控性验证了急剧增加的包围盒对齐度量。
人工评估还表明,用户更喜欢Boximator生成结果,而不是基本模型。
自动跟踪设计
Diffusion模型很难学习离散的信号(例如坐标和id),为了让模型能够和框联系起来,字节的技术团队提出了一个很有意思的解决方法——让模型在训练早期生成带有框的图像,后期的训练再把框去掉,生成不带有框的图像/视频。
在停止直接预测框后,但其框对齐能力仍然存在。
这表明,自跟踪阶段有助于模型学习适当的内部表示。
具体的讲,模型需要学习框的位置和颜色(对象id)。训练时,硬框为精准的框,软框为硬框随机向上下左右四个方向拓展。训练分为三个阶段:
第一阶段,只学习硬框,因为硬框更容易学习。
第二阶段,将80%的硬框替换为软框。
第三阶段,去掉框,直接学习视频。
留个言吧 抢沙发