机器学习周报四十七

发布时间:2026/6/1 1:27:38

机器学习周报四十七 文章目录摘要Abstract1、TripleFDS1.1数据集1.2 模型结构1.3 训练方法1.4训练结果1.5 总结总结摘要本周重新阅读了AAAI2026的论文TripleFDS模型在较少的数据集上实现了当时的SOTA的结果创新性很强而且可以零样本泛化到文本编辑的其他任务但是也有局限性。AbstractThis week, I revisited the AAAI 2026 paper TripleFDS. The model achieved state-of-the-art results on a small dataset with strong innovation, and it can zero-shot generalize to other text editing tasks. However, it also has limitations.1、TripleFDS本周重新阅读了AAAI2026的论文确定了自己的研究方向就去寻找三大顶会论文从中寻找研究方法和研究问题试图从中找到新的方法或者问题。在半年后我再重读这个论文又有了不一样的体会。1.1数据集这是一篇关于场景文本编辑的论文发表在AAAI 2026上场景文本编辑STE旨在自然修改图像中的文本同时保持视觉一致性其决定性因素可分为三部分文本风格、文本内容和背景。编辑如下图将Hello替换到World的背景图片上生成新的Hello的图片。以往的方法在可编辑属性的不完全解缠方面遇到困难通常只关注一个方面如编辑文本内容从而限制了可控性和视觉一致性。为克服这些限制提出了TripleFDS这是一个具有解缠模块属性的STE新框架以及配套的数据集SCB合成。SCB合成利用“SCB群”这一新颖构造为三重特征解缠提供了强大的训练数据该构造将每幅图像的三个属性结合起来生成多样的解缠训练群。利用该构念作为基础训练单元TripleFDS首先解开三重特征通过组间对比正则化确保语义准确并通过样本内多特征正交性减少冗余。在合成阶段TripleFDS进行特征重映射以防止重建过程中出现“捷径”现象并减少潜在的特征泄漏。SCB群如前所述就是将图片的背景、风格、内容互相交换得到的一组对比数据在2x2x2的数据组下两种背景、两种风格、两种内容之间相互组合得到一个包含八张图片的数据。下图是一个3x3x3的数据组的示意图。数据集的生成方法是SRnet所提供的。为了提升模型对现实世界中可能出现的复杂情况的泛化还合成了一种困难的数据集如下图所示其中easy数据集的角度以及对比度都会比hard要好hard样本的字体以及对比度、位置和角度视觉上比easy要难分辨。模型总共合成了100万张图片。模型经过不同的消融实验测试到对模型最好的组合结果就是2x2x2.1.2 模型结构模型的主要结构如下图VAE Encoder图片首先经过VAE Docoder转变为tokentoken之后跟随三个查询q_c、q_s、q_b分别代表内容查询、风格查询和背景查询Disentanglement Module特征解纠缠模块是一个Transformer-decoder主要做的是特征提取的任务将[token,q_c,q_s,q_b]拼接输入经过decoder得到三个解开纠缠的特征。直接对其中的内容特征(content)经过一个linear层这个linear层作为文本识别头直接识别提取内容与真实内容做识别损失。域内损失对于同一个内容域的图片计算对比损失只拉近相同内容的图片推开不同内容的图片类似的处理也对风格和背景域进行。域间损失为了确保提取的内容域的特征纯净不包含其他域的图片所以需要计算一个正交损失计算不同域特征之间的余弦相似度要求相似度尽可能的小。特征映射模型为了让损失尽快的降低可能会出现两种情况一是提取三个一样的特征这三个特征都可以代表这张图片二是提取一个代表这个图片的特征剩余两个特征提取为随机映射只学习一个特征而且将所有特征混杂在一起重建的效果也是最好的虽然又三个损失函数限制这两种情况但是模型可能还是会找到一个局部最优使得难以训练。所以作者加入了特征映射意思是将提取到的特征不直接作为重建的特征而是在一个组数据内提取到的其他的相同背景图片的特征作为重建时的背景特征相同风格的风格特征作为重建时的风格特征。而内容特征不经过映射。经过了特征映射避免了模型提取到一样的特征或者直接只提取一个特征这样重建的时候就会失败。混合模块是一个新的Transformer-decoder架构与上一个decoder相同只是这一次query只有一个q_i经过Synthsis Module混合特征以及q_i进行查询q_i融合了前面所需要的所有的重建特征经过VAE Decoder得到编辑后的风格图片。1.3 训练方法模型是端到端的有监督训练VAE部分不参与训练有合成数据的监督所以在最后还有一个重建损失总的损失函数如下1.4训练结果编辑指标如下所示Tamper-Scene为识别数据集Tamper-Syn2K为合成数据集ScenePair为现实世界数据集。可以发现TripleFDS模型的识别效果以及编辑效果相比于之前的做法在大多数指标上是提升的。得益于模型强大的提取能力模型可以零样本泛化到其他的任务如擦除文本、更换背景/内容/风格、保持风格/内容/背景。受益于强大的特征提取模型的识别能力也有很大的提升所以在面对全尺寸图片时可以较准确的定位到目标区域进行编辑。即使没有经过现实世界数据的微调模型对现实世界的数据进行编辑时得到的效果在视觉上还是很好的。1.5 总结模型的创新性1、特征映射这是模型能够有效分离特征的关键部分由于映射避免模型走捷径不学习真正的特征。2、识别损失识别损失是模型一个关键的部分如果没有识别损失内容特征不经过映射模型的特征不会分离得那么纯净因为不同图片的背景或者风格、内容之间总有那么一个是不同的不经过映射模型将这个不同的部分的特征也编码到内容特征中intra loss也可以因为这点不同而分开inter loss也无法区分因为只是设定相同内容的作为一个类而不强调特征的来源。这也是为什么消融实验中识别损失和重建损失作为baseline的原因没有识别模型不会训练得成功。3、transformer架构的应用decoder-only模型与之前的众多的工作使用unet架构不同模型使用的是自回归的架构这更促进统一机器学习架构的发展。基于以上的分析当前模型还可以研究的方向1、识别损失是必须要的受制于字典的大小模型当前只是实现了英文文本的编辑在面对多种语言如中日韩等语言的能力上还没有实现。2、decoder模型的局限decoder模型有一个mask self-attention机制如果将一个特征设定为128的序列长度模型的总输入长度就会达到7321(mask token)而这样的decoder流程需要两次。额外加上VAE部分的占用模型的训练时间和推理时间以及显存占用都会很大。3、模型需要大量的合成数据的训练数据集大小达到了800万张图片没有对现实世界数据的自监督或者无监督训练即使对泛化层面已经有所考量但是还是不够完善。总结重新阅读这个场景文本编辑的论文给我带来了新的收获对于decoder-only和encoder-decoder模型的选取 以及创新方法的探索。

相关新闻