Deepfake detection via inter-frame inconsistency recomposition and enhancement(基于帧间不一致性重构与增强的深度伪造检测)

发布时间:2026/5/18 10:24:09

Deepfake detection via inter-frame inconsistency recomposition and enhancement(基于帧间不一致性重构与增强的深度伪造检测) 1.摘要由于人脸操作技术的快速发展这些技术的恶意使用可能对社会稳定构成重大威胁。因此开展深度伪造Deepfake检测研究至关重要。本文假设在真实视频中相隔一定间隔的帧的光照基本保持一致而在伪造视频中往往存在不一致。基于这一假设我们提出了一种网络该网络包含可学习的图像分解模块IDM和多层次特征增强模块。IDM将视频帧分解为光照illumination和反射reflection随后通过帧重构操作突出帧级光照不一致性。多层次特征增强模块用于在特征层面进一步增强光照不一致性。此外考虑到计算复杂度和人眼视觉感知机制该网络在对数域logarithm domain中进行训练。实验结果表明该方法在主流深度伪造数据集上优于其他最先进的深度伪造检测方法效果显著。2.引言随着基于变分自编码器VAE和生成对抗网络GAN的人脸伪造技术快速发展各种免费应用和开源项目甚至使普通人也能够生成逼真的伪造人脸。若这些伪造技术被恶意滥用便可能引发安全问题甚至导致社会信任危机。为应对人脸伪造滥用所带来的风险研究者已经提出了多种深度伪造检测方法。早期研究主要依赖一些手工设计特征来挖掘真实样本与伪造样本之间的细微差异或检测人脸篡改留下的伪影。然而这些检测技术存在一定局限性因为它们通常只能识别伪造过程中的某些特定缺陷难以跟上深度伪造技术的持续发展。相比之下基于学习的方法通常能够更好地应对深度伪造问题这类方法一般利用深度神经网络来捕捉输入视频帧中的篡改特征。但像光照这类伪造视频帧之间固有属性的不一致性却往往没有得到足够关注。(早期的方法比较落后传统方法依靠手动标注基于学习的方法能够很好应对深度伪造问题这类方法一般用于捕捉视频帧的篡改特征但是像光照这种视频帧之间的视频帧之间的固有属性的不一致性却没人关注。作者引出了自己的创新点。)deepfake 技术发展很快而且门槛越来越低所以 deepfake 检测变得很重要。以前的方法大多看“手工伪影”或者“单帧特征”。但作者觉得伪造视频帧之间的一致性问题特别是光照一致性还没有被充分研究。由于生成模型本身存在局限性、缺乏时序感知能力以及训练数据受限一些真实视频所具有的固有属性例如光照在伪造视频的不同帧之间往往难以保持一致。这种不一致性会表现为篡改伪影并且既会出现在单帧内部也会出现在帧与帧之间。目前已经有一些利用光照信息进行深度伪造检测的方法。Matern 等人分析了由光照估计、全局一致性以及几何估计误差所引起的视觉伪影。对于某些人脸伪造方法而言由于光照模型本身的局限会产生一些相关伪影例如鼻子区域出现阴影或者镜面反射高光消失。Wu 等人使用颜色恒常性技术对人脸进行预处理并通过处理后的人脸与原始人脸之间的差异来提取光照信息。Gerstner 等人则利用主动光照实现实时 deepfake 视频检测因为 deepfake 视频要么无法正确传递主动光照信息要么在传递这种主动光照时存在时间延迟。然而若直接从空间域中提取光照信息这一过程很容易受到视频压缩等后处理操作的影响而且对于离线视频来说光照变化通常并不明显。因此直接利用每一帧中的光照信息进行深度伪造检测其效果通常不如在实时视频场景下那样理想。作者是使用光照来去进行视频的真伪性检测所以作者作者先承认已经有人用“光照信息”来做 deepfake 检测了。直接从空间域提光照容易受压缩影响离线视频里主动光照变化不明显所以单纯看每一帧光照不一定好用。光照是有价值的但不能太直接、太粗暴地用。在本文中我们从真实视频的一种固有属性——光照——出发来检测伪造人脸。为了解决上述问题作者提出了图像分解模块Image Decomposition ModuleIDM以及多层次特征增强机制。针对低质量视频帧的光照分解问题作者并没有选择直接从 RGB 像素中分离光照分量而是设计了一个更加灵活、可学习的 IDM跟前面进行了一个呼应光照信息不能直接使用。考虑到频域信息在低质量视频中的稳定性以及在经过离散余弦变换DCT后光照变化主要集中在低频部分IDM利用频域信息将视频帧分解为光照和反射这一点相较于一些以往工作具有新颖性。此外考虑到人眼视觉感知机制以及图像分解过程中逐元素乘法所带来的计算复杂度本文方法在对数域中进行训练。由于大多数视频并非实时视频因此光照变化通常并不明显。为了放大帧间光照不一致性作者针对检测任务提出了两类操作一类是在帧级别进行重组操作另一类是在特征级别进行不一致性增强操作。本文假设在真实视频中间隔一定距离的两帧之间其光照通常基本保持一致而在伪造视频中这种一致性往往较难维持。基于这一点通过交换两帧相邻视频帧的光照信息可以在帧级别放大光照不一致性。与此同时由特征重组与残差计算Feature Recomposition and Residual CalculationFRRC以及特征融合模块组成的多层次特征增强机制则可以在特征层面进一步增强这种帧间不一致性。作者通过与一些最先进方法的性能对比验证了所提方法的有效性。本文聚焦于视频帧之间的光照不一致性提出了一种可学习的图像分解模块 IDM。该模块利用频域信息将视频帧分解为光照和反射并创新性地采用重组操作来突出帧级别的光照不一致性。为了在特征层面增强光照不一致性本文提出了一种多层次特征增强机制。该机制由特征重组与残差计算FRRC以及特征融合模块组成能够在不同层级上创造性地对特征进行重组。所提出的网络在对数域中进行训练这不仅能够降低计算复杂度还能够模拟人眼的视觉感知机制。此外该方法中关于视频帧光照分解的实现方式具有较好的可扩展性。3.相关工作3.1深度伪造检测随着深度神经网络特别是 GAN 和 VAE 的广泛应用人脸伪造变得越来越容易也越来越逼真。与此同时deepfake 检测也受到了越来越多的关注。总体而言深度伪造检测方法大致可以分为两类基于手工特征的方法和基于学习的方法。基于手工特征的方法主要试图捕捉在人脸伪造过程中产生的篡改伪影例如眨眼异常、面部表情变化异常以及头部姿态不一致等。McCloskey 等人分析了伪造人脸的生成过程并指出 GAN 生成图像与真实相机拍摄图像在曝光处理上的差异可以用于人脸伪造检测。这里作者先把 deepfake 检测方法分成两大类手工特征方法看眨眼、表情、头姿、曝光差异这类人工设计的线索学习方法让网络自动去学伪造痕迹。3.2内在图像分解图像的光照分解已经被应用于多个领域例如人脸识别、图像增强以及图像去雾等。总体来说光照估计方法大致可以分为两类。第一类是基于统计的方法这类方法主要依据图像统计特性或物理属性来估计光照例如颜色统计、镜面反射以及阴影等。还有一些方法依赖于受人类视觉系统启发的统计特征或者利用图像及场景光照的频域特征与空间导数来进行估计。Chen 等人将图像转换到对数域中并采用离散余弦变换来补偿光照变化。Fu 等人则指出图像中的反射和光照在线性域中的估计效果要优于在对数域中的估计效果。“光照分解”这个任务本身不是作者首创它早就被用于人脸识别 图像增强去雾并且早期方法大多是用统计规律用物理性质或者用频域、梯度等传统线索来做估计4.实验本节将详细介绍本文提出的方法。首先在第 3.1 节中作者给出了所提方法的整体架构并对主要检测流程进行了简要说明。在第 3.2 节中作者介绍了图像分解模块Image Decomposition Module, IDM的具体实现主要包括如何利用频域信息将视频帧分解为光照和反射以及损失函数的设计。在第 3.3 节中类似于图像分解作者还将介绍特征重组的方法以在不同特征层级上增强帧间不一致性。凑字数的套话4.1 整体架构如图 1 所示为了检测伪造人脸作者提出了一种网络其核心思路是首先在帧级别放大光照不一致性然后在特征级别持续增强这种不一致性最终获得具有判别性的检测结果。所提出的网络由两个分支组成上游分支称为辅助网络下游分支称为主干网络。整个网络的输入是两帧间隔一定距离的视频帧。输入的两帧首先通过预训练的图像分解模块IDM被分解为光照和反射。随后交换这两帧的光照成分并分别与对应的反射成分重新组合从而得到两张重组后的帧这些重组帧将被送入主干网络中。受到帧重组操作的启发由辅助网络提取出的两帧输入特征也可以进行重组从而进一步增强帧间不一致性Feature Recomposition and Residual Calculation, FRRC。因此作者提出了一种多层次特征增强机制该机制由特征重组与残差计算以及特征融合模块组成用于在特征层面增强帧间不一致性。特征增强操作被设置在网络的不同层级上。FRRC会以类似的方式对辅助网络提取的特征进行重组并计算重组特征与原始特征之间的残差。这些残差随后会在特征融合模块中与主干网络提取的特征进行融合。最终融合后的特征被用于获得检测结果。辅助网络和主干网络中所使用的深度卷积模块设置相同但参数彼此独立。接下来作者将对 IDM 和多层次特征增强机制进行详细说明。作者不满足于只在图像帧层面交换光照还想在特征层面也做同样的事情。帧级重组放大输入层的光照差异特征级重组放大中间表示层的差异。残差 融合把“变化部分”提炼出来让分类器更容易判断真假4.2 图像分解模块作者把低频子带应用于光照部分 高频子带应用于反射部分设计了一个函数4.3 多水平特征增强多层次特征增强模块的核心思想是在特征层面进一步放大伪造视频中的帧间光照不一致性。具体来说作者先利用辅助网络提取两帧原始图像的中间特征再参考 IDM 的频域分解方式将每帧特征划分为低频成分和高频成分其中低频主要对应光照等整体属性高频更多保留纹理与结构信息。随后作者交换两帧特征中的低频部分并分别与另一帧的高频部分重新组合得到重组特征。通过计算原始特征与重组特征之间的残差可以更突出帧间潜在的不一致区域。接着这些残差特征与主干网络提取的特征一起输入特征融合模块在通道注意力和空间注意力的共同作用下进行双向加权与融合从而在不同层级上强化与 deepfake 相关的异常变化。最终多层次特征增强模块能够在特征空间中持续突出由光照不协调带来的伪造痕迹为后续真假分类提供更具判别性的表示。5.实验分析5.1 实验设置5.2 实验分析相隔几帧效果最好高频低频分割的参数设置5.2 实可视化分析在这一部分中作者展示了 IDM 和图像重组的一些结果以说明光照不一致性的存在。如图 4 所示原始视频帧首先通过预训练的 IDM 被分解为光照成分和反射成分。对于伪造人脸在提取出光照成分之后其对应的反射图往往会在眼睛、嘴部或鼻子等位置出现较为明显的缺陷。对于 NT 类型的人脸光照分解效果比 FF 中其他三种人脸操作方法更加充分。重组后的图像同样能够显示出一些由于光照不一致所导致的明显缺陷。如图 5 所示对于真实人脸光照和反射的分解效果要优于伪造人脸并且重组后的图像与原始图像几乎保持一致只是在背景区域存在一些小缺陷。然而无论是真实人脸还是伪造人脸头发区域或背景区域的光照分解效果都不够理想。作者认为这一不足可能是由于 IDM 在 CelebA 上训练完成后其参数就被固定不再继续更新所导致的。未来可以通过进一步训练对 IDM 进行优化和扩展。图 4. 四种人脸伪造方法的分解与重组结果。对于每一种伪造类型从左到右依次为原始帧、光照成分、反射成分和重组帧。图5真实人脸的分解与重组结果。从左到右依次为原始帧、光照图、反射图以及重组后的图像。对于 fake faces在提取 illumination 后对应的 reflection 在眼睛、嘴巴或鼻子处会出现明显缺陷。实人脸的 illumination 特征面部亮度分布比较平滑没有奇怪亮斑脸轮廓过渡自然五官区域没有异常高亮当仅使用光照成分来检测人脸伪造时尽管检测性能还不够理想但光照信息在 LQ 视频中确实能够用于区分真实人脸和伪造人脸。而在另一种情况下无论是 Xception 还是 ResNet-18以重组帧作为输入时的表现都优于以原始帧作为输入这表明重组操作能够突出伪造视频中的篡改伪影。6.结论在本研究中针对伪造视频中存在的光照不一致问题我们提出了一种网络首先在帧级别放大光照不一致性并在特征级别持续增强该信息最终获得具有判别性的检测结果。在实现图像分解模块Image Decomposition Module, IDM时我们利用频率信息对视频帧进行光照分解这种方式在处理低质量视频时更为有效。其中的重组操作对于在类似深度伪造检测任务中增强帧间不一致性也具有一定启发意义。多层特征增强创新性地采用了两个结构相同的网络来进行特征分解与重组这有助于在不同层级上获得更具判别性的特征。大量实验表明与其他先进的深度伪造检测方法相比所提出的方法在深度伪造检测任务上表现出更优越的性能。然而在某些区域例如头发区域的光照分解结果仍不够理想。造成这一不足的原因可能在于IDM 是预训练得到的并且其参数在后续训练过程中未进行更新。因此IDM 无法很好地适应各种场景下视频帧光照成分的分解这也是未来工作中值得进一步研究的问题。针对人脸区域中光照分量与反射分量分解的损失函数设计也值得重点关注。此外未来进一步研究一种更高效的注意力机制以实现多层特征增强也将是一个很有意义的方向。

相关新闻