ICLR 2026 | LiveMoments 用参考图引导的扩散模型提升重选封面帧画质

发布时间:2026/6/5 22:14:33

ICLR 2026 | LiveMoments 用参考图引导的扩散模型提升重选封面帧画质 作者vivo BlueImage Lab摘要我们团队提出了 LiveMoments这是首个专门针对 Live Photo 重选封面帧画质修复的解决方案已被 ICLR 2026 录用。针对用户重选封面时面临的画质降级痛点我们利用 Live Photo 自带的原始高清封面作为参考构建了一个包含运动对齐模块的参考引导扩散模型。该方法有效解决了两帧之间因时间偏移产生的运动错位问题成功将低质的重选帧修复至高清水平让用户捕捉的每一瞬间都能拥有“封面级”的清晰度与细节。对应的论文已被 ICLR2026 接收该工作由vivo BlueImage Lab南开大学共同完成。本文入选 ICLR 2026ICLRInternational Conference on Learning Representations是聚焦机器学习与深度学习等领域的国际顶级学术会议致力于推动人工智能理论与方法的前沿研究与创新发展。ICLR 2026 19525篇投稿接收率约27.4%。论文链接https://arxiv.org/pdf/2604.12286论文主页https://clara7-c.github.io/livemoments/代码链接https://github.com/OpenVeraTeam/LiveMoments一、背景在手机摄影中Live Photo 早已成为一种常见而成熟的拍摄形式它不再只是定格一个画面而是记录“此时此刻”的状态与情绪捕捉那些转瞬即逝的精彩瞬间。它由一张高清封面图和一段短视频共同组成既保留了照片的清晰质感也记录了拍摄瞬间前后的动态信息。在日常使用中用户往往希望从这段视频中重新选择某一帧作为封面以捕捉更理想的表情、动作或时机。然而在实际使用中问题也随之显现由于视频本身分辨率低、压缩严重重选的封面帧往往画质不足难以满足“封面级”的观感要求。这一看似简单的需求实际上仍缺乏有效的技术解决方案。现有单帧或参考修复方法难以处理来自同一场景却存在时间偏移的参考图像而视频级方法又往往围绕整段视频序列设计难以高效地服务于单帧封面修复。图 1: 真实 Live Photo 场景下机内重选封面帧与 LiveMoments 的效果对比vivo 蓝图实验室与南开大学联合发布了一项新的研究工作《LiveMoments: Reselected Key Photo Restoration in Live Photos via Reference-guided Diffusion》首次系统性地定义了“基于原始封面帧参考的Live Photo重选封面帧修复”这一任务并为该任务提供了创新性的解决方案。该工作已正式被国际机器学习顶级会议 ICLR 2026 接收。通过利用 Live Photo 中自带的高清原始封面帧作为参考LiveMoments 能够在保持内容一致性的同时显著提升重选封面帧的画质使其真正达到可作为封面的视觉质量。二、全新任务为Live Photo带来更清晰的重选封面帧体验不同于传统针对单帧图像或整段视频的参考修复任务研究团队从 Live Photo 的真实使用场景出发提出了重选封面帧修复Reselected Key Photo Restoration这一新问题。即利用原始封面帧作为高质量参考引导低质量重选帧的修复过程从而提升其视觉质量。图 2: 参考超分与 Live Photo 重选封面帧修复的任务对比这一任务可以看作参考图像超分RefSR的一个子问题但与传统参考图像超分RefISR依赖来自外部数据库的高质量参考图不同该任务使用来自同一 Live Photo 序列的原始封面帧保证了内容一致性。同时相比参考视频超分RefVSR需要处理整段视频、甚至依赖多摄像头数据的复杂设定该任务只关注单张重选封面帧的修复更贴近实际需求也更加高效。然而这一设定也带来了新的挑战Live Photo 中普遍存在的运动错位以及原始封面与重选帧之间显著的质量差异使得现有参考超分与单帧超分方法难以直接适用。而研究团队所提出的 LiveMoments 通过 Live Photo 中天然存在的高清原始封面帧作为参考引导重选封面帧的修复能够在显著提升画质的同时有效避免结构失真与细节不一致等问题。同时该模型结合了扩散模型所具备的强生成先验并针对 Live Photo 场景中广泛存在的运动错位设计了对齐模块在复杂动态场景下依然表现出良好的稳定性与鲁棒性。三、技术逻辑参考引导下的重选封面帧修复针对 Live Photo 中的重选封面帧修复任务LiveMoments 的整体设计围绕两个关键问题展开如何稳定实现细节迁移与修复以及如何应对 Live Photo 中广泛存在的运动场景。图 3: LiveMoments架构图1.针对细节迁移与修复设计的 baselineLiveMoments 以扩散模型为基础构建了一个包含参考引导的修复框架。借助扩散模型强大的生成先验模型能够实现高效与细粒度的特征提取。同时基于注意力的特征融合机制有效地引入了来自原始封面帧的细节与纹理信息在提升清晰度的同时保持整体结构的一致性。这一设计使模型能够稳定可靠地恢复重选封面帧的画质。2.针对 Live Photo 场景的运动对齐设计考虑到原始封面帧与重选封面帧往往存在明显的时间偏移与运动错位LiveMoments 进一步引入了运动对齐模块以提升跨帧对齐与参考融合的准确性。该模块同时作用于两个部分在潜空间中通过运动引导的注意力机制增强特征融合的一致性在像素域中通过图像块匹配检索策略定位并利用正确的参考区域。这一设计有效缓解了运动错位带来的干扰使参考信息能够被更精准、可靠地使用。四、实验结果超越现有的参考超分与单帧超分方法研究团队构建了 2 个真实场景下的 Live Photo 数据集与 1 个仿真数据集并通过调整无参考评价指标使其更适用于重选封面帧修复这一任务。真实 Live Photo 数据集由 vivo X200 Pro 与 iPhone 15 Pro 拍摄获得模型在 2 个真实场景数据集上均取得了最优的评价指标展现出稳定而全面的性能优势。表 1: 2 个真实 Live Photo 数据集上 LiveMoments 与其他模型的数值指标对比图 4: 真实 Live Photo 场景下 LiveMoments 与其他模型的修复效果对比五、总结与展望通过利用 Live Photo 中天然存在的原始封面帧作为参考LiveMoments 采用双分支结构的设计并结合统一的运动对齐模块能够有效将原始高质量封面帧中的结构与纹理信息迁移至重选封面帧中在复杂场景下依然表现出稳定的性能。该工作从实际应用场景出发首次系统性地研究了 Live Photo 重选封面帧修复问题能够广泛服务于多种影像场景日常拍摄自由选择最满意的瞬间作为封面不再受画质限制内容创作为短视频、社交平台内容提供更高质量的封面图学术研究为参考引导图像修复与扩散模型的应用提供新的研究范式诚挚欢迎大家关注论文与项目进展也期待这一工作能够为 Live Photo 相关的计算摄影与图像修复任务带来新的视角与思路。vivo BlueImage Lab蓝图影像创新实验室主要负责移动影像算法创新包括图像/视频处理、图像/视频交互、图像/视频增强、多模态理解大模型等方面的技术前沿探索。致力于不断提升vivo移动影像的算法能力使用户能够拍摄出更加清晰、美观的照片和视频。同时积极探索增强现实、具身智能等新兴技术领域的应用努力为用户提供更加丰富和便捷的影像体验。欢迎持续关注 vivo 影像技术获取前沿技术创新经验分享与热招岗位信息。

相关新闻