风格(Style),为了进一步将单张图像的风格转移到合成的视频中,选择图像嵌入作为风格指导; 时序条件: 运动矢量(Motion Vector),运动矢量作为视频特有的元素表示为二维向量,即水平和垂直方向 。它明确地编码了相邻两帧之间的逐像素移动 。由于运动矢量的自然属性,将此条件视为时间平滑合成的运动控制信号,其从压缩视频中提取标准 MPEG-4 格式的运动矢量; 深度序列(Depth Sequence),为了引入视频级别的深度信息,利用 PiDiNet 中的预训练模型提取视频帧的深度图; 掩膜序列(Mask Sequence),引入管状掩膜来屏蔽局部时空内容,并强制模型根据可观察到的信息预测被屏蔽的区域; 草图序列(Sketch Sequnce),与单个草图相比,草图序列可以提供更多的控制细节,从而实现精确的定制合成 。时空条件编码器 。序列条件包含丰富而复杂的时空依赖关系,对可控的指示带来了较大挑战 。为了增强输入条件的时序感知,该研究设计了一个时空条件编码器(STC-encoder)来纳入空时关系 。具体而言,首先应用一个轻量级的空间结构,包括两个 2D 卷积和一个 avgPooling,用于提取局部空间信息,然后将得到的条件序列被输入到一个时序 Transformer 层进行时间建模 。这样,STC-encoder 可以促进时间提示的显式嵌入,为多样化的输入提供统一的条件植入入口,从而增强帧间一致性 。另外,该研究在时间维度上重复单个图像和单个草图的空间条件,以确保它们与时间条件的一致性,从而方便条件植入过程 。
两阶段训练策略 。虽然 VideoComposer 可以通过图像 LDM 的预训练进行初始化,其能够在一定程度上缓解训练难度,但模型难以同时具有时序动态感知的能力和多条件生成的能力,这个会增加训练组合视频生成的难度 。因此,该研究采用了两阶段优化策略,第一阶段通过 T2V 训练的方法,让模型初步具有时序建模能力;第二阶段在通过组合式训练来优化 VideoComposer,以达到比较好的性能 。
推理 。在推理过程中,采用 DDIM 来提高推理效率 。并采用无分类器指导来确保生成结果符合指定条件 。生成过程可以形式化如下:

文章插图
其中,ω 是指导比例;c1 和 c2 是两组条件 。这种指导机制在两条件集合判断,可以通过强度控制来让模型具有更加灵活的控制 。
实验结果
在实验探索中,该研究证明作为 VideoComposer 作为统一模型具有通用生成框架,并在 9 项经典任务上验证 VideoComposer 的能力 。
该研究的部分结果如下,在静态图片到视频生成(图 4)、视频 Inpainting(图 5)、静态草图生成生视频(图 6)、手绘运动控制视频(图 8)、运动迁移(图 A12)均能体现可控视频生成的优势 。

文章插图

文章插图

文章插图

文章插图
团队介绍
公开信息显示,阿里巴巴在视觉基础模型上的研究主要围绕视觉表征大模型、视觉生成式大模型及其下游应用的研究,并在相关领域已经发表 CCF-A 类论文 60 余篇以及在多项行业竞赛中获得 10 余项国际冠军,比如可控图像生成方法 Composer、图文预训练方法 RA-CLIP 和 RLEG、未裁剪长视频自监督学习 HiCo/HiCo++、说话人脸生成方法 LipFormer 等均出自该团队 。
【时间、空间可控的视频生成走进现实,阿里大模型新作火了】
推荐阅读
-
省心省力又省钱,解放J6P自动挡牵引车为啥这么受欢迎?
-
小柒厨房菜■村厨猪手、肉丝南瓜花、菜心炒鱼片这几道家常菜的做法
-
淘宝直播、问大家、猜你喜欢,95后最爱的淘宝三大功能
-
孔夫子搬家一一歇后语下一句 孔夫子搬家 一一歇后语
-
时间■再过4个月时间,新农合账户将会清零了,很多农民不懂怎么
-
历史神秘事|尽管武功谋略皆为一流,为何最终落得郁郁而终的下场呢,马超
-
如何正确引导孩子交朋友,如何正确引导孩子交朋友初中
-
鹿晗零点为关晓彤庆生|【围观吃瓜】鹿晗零点为关晓彤庆生,有点甜是怎么回事哦!
-
土木女生国内设计院or造价还是出国读研,大二下迷茫求指点。?
-
-
全创优咖|3星座欣喜,终于获得心上人认可,牵手相伴到永生,在7月
-
腿比较细,但是上半身很胖,脖子粗,脸比较胖,怎么样做或者说合理的锻炼才能够让身体比例更加协调
-
国防时报军情|美国再出新招:将研制新型战机,实施未来直升机计划,为对抗中俄
-
地方|尤氏比王熙凤地位尊贵的多,这个地方她能进,凤姐没资格!
-
重庆2号线最早几点开 重庆轨道交通2号线早晚高峰高开列车
-
车家号|630马力新超跑,玛莎拉蒂MC20全球首发,新“海王”来了
-
庞统那么厉害为什么会死?历史上的诸葛亮和庞统谁更厉害
-
-
肖战@被封杀?因不可抗拒的压力删掉肖战所有镜头,他是劣迹艺人?
-
|为什么懂人情世故的人更容易赚大钱,看懂的能少奋斗5年