UniVidX——基于扩散先验的统一多模态视频生成框架

发布时间:2026/6/13 19:22:31

UniVidX——基于扩散先验的统一多模态视频生成框架 UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors一、论文标题与基本信息论文标题UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors作者Houyuan Chen, Hong Li, Xianghao Kong, Tianrui Zhu, Shaocong Xu, Weiqing Xiao, Yuwei Guo, Chongjie Ye, Lvmin Zhang, Hao Zhao, Anyi Rao研究机构MMLabHKUST香港科技大学多媒体实验室、北京航空航天大学、南京大学、北京智源人工智能研究院BAAI、斯坦福大学、清华大学、香港中文大学深圳发表时间2026年5月1日发表会议SIGGRAPH 2026ACM Transactions on GraphicsarXiv编号2605.00658研究领域计算机视觉、计算机图形学、视频生成、多模态学习二、研究背景2.1 视频扩散模型的发展近年来视频扩散模型Video Diffusion Model, VDM作为基础模型在视频生成领域取得了突破性进展。从早期的基于GAN的视频生成方法到如今基于扩散概率模型的生成范式视频生成技术经历了质的飞跃。以Sora、CogVideo、Open-Sora等为代表的大规模视频生成模型已经能够根据文本提示生成高质量、长时序的视频内容。这些模型通过在海量视频数据上进行预训练学习到了丰富的视觉先验知识包括物体的运动规律、物理世界的交互逻辑以及场景的时空一致性等。这些先验知识使得视频扩散模型成为了一个强大的视觉基础模型为下游的各种视频理解和生成任务提供了坚实的基础。2.2 现有方法的局限性然而尽管视频扩散模型展现出强大的生成能力现有的方法在利用这些模型进行多模态视频生成时存在显著的局限性。首先大多数现有方法为每个具体的视频生成任务训练独立的专用模型。例如视频深度估计需要一个模型法线估计需要另一个模型视频抠图又需要单独训练一个模型。这种一个任务一个模型的范式不仅导致了巨大的计算资源浪费还使得模型之间缺乏共享的知识表示难以实现跨任务的协同推理。其次现有方法通常采用固定的输入-输出映射关系。例如一个文本到视频的生成模型只能接受文本输入并输出RGB视频无法灵活地接受其他模态作为条件输入。这种刚性设计严重限制了模型的应用场景当需要处理新的输入-输出组合时往往需要重新训练模型。第三现有方法在处理多模态关联性时存在不足。在视频生成中不同模态之间往往存在紧密的内在联系——例如物体的反照率albedo与辐照度irradiance共同决定了其外观前景与背景通过Alpha通道组合形成完整的场景。然而大多数方法将不同模态视为独立的生成任务忽略了它们之间的跨模态关联性导致生成结果在多模态一致性方面表现不佳。2.3 内在分解与Alpha通道处理的研究现状内在分解Intrinsic Decomposition是计算机视觉中的经典问题旨在将图像或视频分解为反映其物理属性的内在分量如反照率albedo即物体表面的固有颜色、辐照度irradiance即光照条件和法线normal即表面朝向。传统的内在分解方法通常基于优化或统计学习在复杂场景下效果有限。近年来一些工作开始利用扩散模型来改进内在分解的质量但这些方法通常是针对图像而非视频设计的且大多只能处理单一方向的分解任务。在视频抠图Video Matting领域Alpha通道的精确估计对于前景-背景分离至关重要。传统方法如闭式形式抠图和KNN抠图在处理复杂边界时存在困难而基于深度学习的方法虽然有所改进但往往需要大量标注数据。如何有效地将视频扩散模型的先验知识迁移到这些精细的视觉任务中同时保持多模态之间的一致性是当前研究面临的核心挑战。三、核心方法详解3.1 统一框架设计理念UniVidX的核心思想是构建一个统一的多模态视频生成框架能够在一个模型内处理多种输入-输出模态组合。与传统方法为每个任务训练独立模型不同UniVidX将不同的视觉模态如RGB视频、反照率图、辐照度图、法线图、Alpha通道等统一到一个共享的扩散模型框架中。该框架的设计理念基于一个关键洞察视频扩散模型在预训练过程中已经学习到了丰富的多模态视觉先验通过适当的适配策略这些先验可以被迁移到各种下游的视觉生成任务中。UniVidX框架的统一性体现在三个维度一是模态的统一即多种视觉模态共享同一个生成模型二是方向的统一即同一个模型支持任意模态到任意模态的生成三是条件的统一即支持文本条件、模态条件以及两者的混合条件。这种统一设计极大地提高了模型的灵活性和实用性。3.2 Stochastic Condition Masking (SCM)随机条件掩码Stochastic Condition Masking, SCM是UniVidX实现全方向条件生成的关键技术。在训练过程中SCM以随机概率将输入的多种模态划分为两组一组作为干净的条件输入保持原始数据另一组作为需要生成的噪声目标添加噪声。这种随机划分策略使得模型能够学习到任意模态组合到任意模态组合的映射关系。具体而言给定一组多模态输入SCM为每个模态独立地采样一个掩码值决定该模态是作为条件还是生成目标。这种设计使得在推理时用户可以自由地指定哪些模态作为已知条件、哪些模态需要生成实现了真正的全方向条件生成。例如用户可以同时提供反照率和法线来生成RGB视频也可以从RGB视频和文本描述出发生成对应的法线图。这种灵活性是传统固定映射方法无法实现的。3.3 Decoupled Gated LoRA (DGL)解耦门控低秩适配Decoupled Gated LoRA, DGL是UniVidX为解决多模态适配中的先验保留问题而提出的创新设计。在传统的LoRA微调中所有适配参数在推理时始终激活这可能导致预训练模型中学到的通用视觉先验被特定任务的适配参数覆盖。DGL通过为每个模态分配独立的LoRA适配器并引入门控机制来解决这一问题。DGL的关键设计在于每个模态的LoRA适配器仅在对应模态作为生成目标时才被激活而当该模态作为条件输入时对应的LoRA保持关闭状态。这种解耦设计确保了视频扩散模型预训练的通用先验在非目标模态上得到完整保留同时允许目标模态通过LoRA进行必要的适配。门控机制的引入使得这种条件性激活可以在推理时灵活控制无需为不同的生成方向训练不同的模型。3.4 Cross-Modal Self-Attention (CMSA)跨模态自注意力Cross-Modal Self-Attention, CMSA是UniVidX实现多模态信息交互的核心机制。在标准的Transformer架构中自注意力层通过查询query、键key和值value三个线性变换来计算注意力权重。CMSA的创新在于跨模态共享键和值的投影权重同时保持每个模态独立的查询投影。这种设计的直觉是不同模态之间需要共享内容表示通过共享的keys/values实现同时保持各自模态特有的查询需求通过独立的queries实现。例如当从反照率生成辐照度时模型需要理解反照率中的内容信息共享的keys/values但辐照度的查询方式应该与反照率不同独立的queries。CMSA有效地促进了不同模态之间的信息流动和一致性保持同时尊重了各模态的特异性。3.5 两个实例化模型UniVid-Intrinsic该实例专注于RGB视频与内在分解图之间的相互生成。它支持四种模态——RGB视频、反照率albedo图、辐照度irradiance图和法线normal图——之间的任意方向转换。这一模型覆盖了逆向渲染从RGB分解为内在分量和前向渲染从内在分量合成RGB两类任务为视频的物理理解和编辑提供了强大的工具。UniVid-Alpha该实例专注于混合RGB视频与RGBA层的相互生成。它支持混合层BL、Alpha遮罩alpha matte、前景FG和背景BG四种模态之间的任意转换。这一模型在视频抠图、前景/背景替换、视频合成等应用场景中具有重要价值能够实现高质量的视频分层编辑。3.6 支持的生成范式与任务覆盖UniVidX支持三种主要的生成范式纯文本到模态生成Text→X、模态到模态生成X→X以及文本与模态联合条件生成TextX→X。在这三种范式下UniVid-Intrinsic和UniVid-Alpha两个实例共覆盖了15个不同的视频生成任务。这种广泛的任务覆盖能力使得UniVidX成为一个真正意义上的通用视频生成框架用户无需为不同的任务切换不同的模型极大地简化了应用流程。3.7 数据效率UniVidX的一个显著优势是其卓越的数据效率。得益于视频扩散模型预训练的强大先验以及DGL和CMSA的有效适配策略UniVidX仅需不到1000个训练视频即可实现高质量的多种模态生成。这与传统方法动辄需要数万甚至数十万标注样本形成鲜明对比。这种高数据效率不仅降低了训练成本还使得在特定领域如医学影像、工业检测等的快速适配成为可能具有广阔的实际应用前景。四、实验结果分析4.1 Text→X生成任务评估在文本到多模态生成任务中UniVidX展现了令人印象深刻的生成质量。实验结果表明无论是从文本生成内在分解分量反照率、辐照度、法线还是从文本生成RGBA分层视频UniVidX都能够生成视觉上合理且多模态之间高度一致的结果。定量评估方面UniVidX在FID、CLIP分数等指标上均优于或可比于专用生成模型。特别值得注意的是UniVidX生成的多模态结果之间具有良好的物理一致性——例如生成的反照率和辐照度相乘后能够合理地还原出对应的RGB外观。4.2 逆向渲染与前向渲染评估在逆向渲染任务从RGB视频分解为反照率、辐照度和法线中UniVidX在多个基准数据集上达到了最先进的性能。与传统优化方法和基于学习的方法相比UniVidX不仅在定量指标如PSNR、SSIM、LPIPS上表现优异还在视觉质量上展现出明显优势——生成的内在分量更加清晰、细节更加丰富且不同分量之间的物理一致性更好。在前向渲染任务从内在分量合成RGB视频中UniVidX同样表现出色能够生成与真实视频难以区分的高质量结果。4.3 反照率估计与法线估计在反照率估计方面UniVidX能够准确地将光照信息从物体表面颜色中分离出来生成反映物体固有属性的反照率图。实验表明UniVidX在处理复杂光照条件如阴影、高光、环境光遮蔽等时表现出色生成的反照率图在不同光照区域保持颜色一致性。在法线估计方面UniVidX生成的法线图在物体边缘和细节区域表现尤为突出能够准确捕捉表面的几何结构信息。与专用的法线估计方法相比UniVidX在保持高精度的同时还提供了与其他模态的天然一致性保证。4.4 视频抠图评估在视频抠图任务中UniVid-Alpha展现了强大的前景-背景分离能力。实验涵盖了多种具有挑战性的场景包括精细毛发、半透明物体、运动模糊等。评估结果显示UniVid-Alpha在Alpha Matte精度、前景/背景重建质量等指标上均达到了竞争性水平。更重要的是由于UniVidX的统一框架设计抠图结果与生成的前景和背景之间保持了高度的一致性这为后续的视频编辑操作提供了可靠的基础。4.5 消融实验论文通过系统的消融实验验证了三个关键设计组件的有效性。首先移除SCM后模型只能处理固定的输入-输出映射丧失了全方向生成的能力验证了SCM在实现灵活条件生成中的核心作用。其次移除DGL后模型在非目标模态上的生成质量显著下降表明DGL在保留VDM预训练先验方面的重要性。第三移除CMSA后不同模态之间的一致性明显降低特别是在需要多模态协同的任务如前向渲染中表现尤为明显证实了CMSA在促进跨模态信息交互中的关键作用。4.6 下游应用展示UniVidX的统一框架为多种下游应用提供了可能。论文展示了五个典型的应用场景1视频重光照——通过修改辐照度图并利用前向渲染实现视频光照条件的改变2文本驱动的视频重纹理化——结合文本条件和反照率图修改实现物体表面材质的编辑3材质编辑——直接在反照率空间进行编辑并渲染回RGB空间4视频修复——利用多模态条件信息指导视频内容的修复5背景/前景替换——通过Alpha通道实现视频前景和背景的独立替换。这些应用充分展示了UniVidX作为统一框架的实用价值和广泛适用性。五、与相关工作的对比5.1 与专用单模态生成方法的对比与NormalCrafter、ControlVideo等专用单模态生成方法相比UniVidX的最大优势在于其统一性。这些专用方法虽然在各自的特定任务上可能达到较高的性能但每个方法只能处理一种固定的输入-输出映射。当需要处理多种相关任务时用户需要部署和维护多个独立的模型不仅增加了系统复杂度还可能导致不同模型输出之间的不一致性。UniVidX通过单一模型覆盖多种任务在保持竞争性性能的同时大大简化了部署流程并保证了跨任务的一致性。5.2 与串行多模态推理方法的对比以Ouroboros为代表的串行多模态推理方法通过链式调用多个扩散模型来实现跨模态生成。虽然这种方法可以利用现有模型的生成能力但串行推理存在误差累积的问题——每一步的生成误差会传递到后续步骤最终导致多模态结果之间的一致性下降。此外串行推理的计算开销随链长线性增长效率较低。UniVidX通过端到端的联合生成避免了误差累积问题同时由于所有模态共享同一个模型跨模态一致性得到了天然保证。5.3 与图像级统一方法的对比OmniAlpha等方法在图像级别实现了多模态的统一处理但它们无法直接扩展到视频领域。视频相比图像引入了时间维度的一致性挑战需要额外的时序建模能力。UniVidX基于视频扩散模型构建天然地具备处理时空一致性的能力能够生成时序连贯的多模态视频结果。此外UniVidX支持的模态类型和生成方向也更加丰富覆盖了更广泛的应用场景。5.4 与传统内在分解方法的对比传统的内在分解方法主要基于物理模型假设和优化策略在处理复杂真实场景时往往效果有限。近年来一些基于深度学习的方法通过大规模数据训练提升了内在分解的质量但这些方法通常是单向的仅支持RGB到内在分量的分解且无法利用文本等语义条件进行引导。UniVidX不仅支持双向的内在分解与合成还能接受文本条件的引导在灵活性和生成质量上都取得了显著提升。同时UniVidX将内在分解扩展到视频领域保持了时序一致性这是大多数传统方法无法实现的。六、优缺点分析6.1 优点UniVidX具有多方面的显著优势。第一统一框架覆盖多任务通过单一模型支持15个不同的视频生成任务涵盖了内在分解、视频抠图、多模态生成等多个领域极大地提高了模型的实用性和部署效率。第二数据效率极高仅需不到1000个训练视频即可实现高质量的生成这得益于对视频扩散模型先验的有效利用大幅降低了训练成本和数据采集门槛。第三跨模态一致性强通过CMSA机制和联合训练策略生成的不同模态结果之间保持高度的物理和视觉一致性这对于需要多模态协同的应用至关重要。第四泛化能力强全方向的条件生成能力使得模型能够处理训练时未见过的模态组合展现出良好的零样本泛化能力。6.2 缺点与局限尽管UniVidX取得了令人瞩目的成果但仍存在一些局限性和不足。首先数据偏差和极端情况的处理能力有待提升。由于训练数据规模有限不到1000个视频模型在面对分布外的场景或极端光照条件时可能表现不佳。其次训练数据的多样性受限可能导致模型在某些特定类型的场景如室内场景、夜间场景等上生成质量下降。第三当前支持的模态覆盖范围仍然有限主要集中在内在分解和Alpha通道相关的模态对于深度图、光流图、语义分割图等其他重要模态尚未涉及。此外模型在处理高分辨率视频时的计算开销较大实时性有待进一步优化。七、个人见解和未来展望7.1 对统一多模态生成范式的思考UniVidX代表了视频生成领域从专用模型向统一基础模型演进的重要趋势。这种统一范式的核心价值不仅在于减少了模型数量和部署成本更在于它改变了我们思考视觉生成问题的方式——从孤立的单一任务视角转向系统性的多模态协同视角。在这种范式下不同模态不再是独立的生成目标而是同一个物理世界在不同维度的投影它们之间的内在关联性成为了提升生成质量的重要约束。我认为这种统一范式有望成为未来视觉生成研究的主流方向推动计算机视觉和计算机图形学的深度融合。7.2 对视频扩散模型先验利用的见解UniVidX的成功充分证明了视频扩散模型作为视觉基础模型的巨大潜力。DGL的设计尤其值得称道——它巧妙地解决了适配过程中先验保留与任务特化的矛盾。这启示我们在利用大型预训练模型时关键不在于简单地微调所有参数而在于设计精巧的适配策略使得预训练先验能够在需要时被保留、在需要时被修改。这种选择性适配的思路对于其他领域的基础模型应用也具有借鉴意义。同时SCM的训练策略也提供了一种优雅的解决方案通过随机化条件-目标的划分使得单一模型能够隐式地学习到多种映射关系。7.3 对工业应用前景的分析从工业应用的角度来看UniVidX具有广阔的应用前景。在影视后期制作领域UniVidX可以实现高效的视频分层编辑、重光照和材质修改大幅提升制作效率。在游戏和虚拟现实领域UniVidX的多模态生成能力可以用于自动化的资产创建和场景编辑。在视频会议和直播领域UniVidX的实时背景替换和前景抠图能力具有直接的商用价值。特别值得注意的是UniVidX的高数据效率使得在垂直领域如医学影像分析、工业质检等的定制化应用成为可能这些领域通常面临标注数据稀缺的挑战。7.4 未来可能扩展的方向基于对UniVidX的分析我认为以下几个方向值得进一步探索。第一扩展模态覆盖范围将深度图、光流图、语义分割图、人体姿态等更多模态纳入统一框架构建更加全面的视频理解与生成系统。第二提升时序一致性虽然UniVidX基于视频扩散模型已具备一定的时序建模能力但在长视频生成中保持多模态的长期一致性仍是一个挑战可以探索结合时序注意力机制和一致性约束的方法。第三实时推理优化通过模型蒸馏、量化等技术提升推理速度使UniVidX能够满足实时应用的需求。第四与3D生成结合将UniVidX的多模态生成能力扩展到3D领域实现从2D视频到3D场景的重建和生成。第五交互式编辑开发基于UniVidX的交互式视频编辑工具允许用户通过直观的界面进行多模态视频编辑操作。

相关新闻