
目录一、TTSA3R1、概述2、架构二、LaCT1、概述2、架构三、Zipmap1、概述2、架构四、LoGeR1、概述2、架构这三篇论文研究动机都源于当前3D基础模型如VGGT, π³在处理大量图像时面临的计算复杂度瓶颈通常是O(N²)与重建质量之间的根本矛盾。它们都致力于寻找一种方案在大幅提升计算效率、降低时间复杂度的同时不牺牲甚至提升重建的精度和全局一致性。核心思路都是摒弃完全依赖注意力或者每一帧单独处理的传统范式转而设计一种可更新的、紧凑的持久状态或内存来表征整个场景。一、TTSA3R1、概述motivation由于以往方法都是只考虑单一维度下的自适应信号没有考虑时间和空间的一致性。限制了模型进行细粒度状态更新控制的能力无法同时考虑状态随时间的演化和观测与状态的空间对应关系。contribution提出无需训练的框架用于缓解在线流式3D重建中的长期灾难性以往问题。设计了双模块架构来分析时间和空间信号有效平衡长期记忆与新观测的整合。2、架构TTSA3R完全建立在CUT3R的基础上并且添加了两个无需训练测试时运行的模块来精细地控制状态更新。这两个模块只是用于更新的以往CUT3R是直接输入通过decoder解码出而TTSA3R中依赖两个无需训练的模块来计算一个掩码使得。这里我们定义decoder输出的是输入到记忆中的是现在我们来告诉你这个掩码怎么计算。1时间自适应模块TAUM输入当前解码器输出的“候选新状态”和上一时刻的候选状态,利用L2范数计算变化幅度之后进行归一化处理将变化幅度除以所有tokens的平均值。将归一化后的变化量减去一个阈值τ并输入一个sigmoid函数。2空间上下文更新模块当前帧图像特征和上一帧图像特征。计算两者之间的余弦相似度补数作为特征差异D_t。从解码器的所有层中提取历史状态与当前图像特征之间的交叉注意力图对各层注意力图取绝对值后求平均得到聚合注意力图。对聚合注意力和特征差异进行元素级乘积对乘积结果在空间维度图像令牌维度应用最大池化将信息压缩至与状态令牌对应的维度再通过Sigmoid函数得到空间掩码。3时空信号融合二、LaCT由于Zipmap是基于LaCT结构改良的所以我们需要熟悉一下LaCT。1、概述motivation这个其实是对测试时训练的计算效率和可扩展性差方向上的优化论文在Test-time training在大语言模型上大规模发展阶段出现的属于解决模型架构的问题并且可以用到下游任务上。1硬件利用率低现有的TTT方法都是采用极小的在线mini-batch也就是指模型在处理输入序列时同时按顺序、逐小段16、64tokens进行权重更新模拟了一种实时学习的过程。但是我们知道这样计算虽然速度快了但是GPU数千个计算核心只使用了极少数大多数单元处于闲置状态导致FLOPs利用率极低。模型会这样工作读取16个tokens-用这16个tokens计算loss和gradient-更新权重-应用新的权重处理16个tokens并输出-再读取16个tokens-重复过程2限制模型表达与扩展低效率的实现使得扩展非线性的、大容量的快速权重状态变得非常困难从而限制模型的记忆和能力。3实现复杂性和通用性差为了优化效率所有以往的工作会依赖复杂的自定义内核来实现并且细粒度块间因果依赖设计使其难以处理图像、视频等多维网格数据或集合数据。contribution1Large-chunk TTTLaCT倡导使用极大的块承载2K到1Mtokens来作为更新快速权重的基本单元。2代码简洁仅需数十行代码高效实现无需复杂的自定义内核。3支持大规模非线性状态和高级优化器可以把更新权重网络扩展为大规模非线性函数SwiGLU-MLP提高参数量保证不会OOM4LaCT架构Large chunkTTTlayers与local window attention相结合TTT层将块内令牌视为无序集合专注于压缩和建模非局部的长程依赖窗口注意力用于有效捕获数据内部的局部结构比如图像空间关系和文本局部上下文。2、架构首先LaCT这个架构很像transformer中的一层结构所以这个模块也是用来有选择的替代Transformer中计算成本高昂的全局注意力机制并与局部注意力结合形成一种新的混合架构。架构局部窗口注意力层大块TTT层FFN输入给定一个长度N的输入序列这就是一个tokens序列。先将这个序列处理成连续的大chunk块大小为b序列划分为。窗口注意力层对块内的每一个tokens应用WindowAttn并输出特征复杂度降低到.Large-chunk TTT层建立在跨整个块的全局依赖维护可在线更新的快速权重作为记忆状态。首先将投影为QKV向量使用之前的快速权重来处理当前块的所有查询生成输出。1应用部分快速权重有三个可学习权重组成并基于快速权重建立一个非线性函数整个块的查询矩阵它的输出为2更新部分定义损失函数对于块内每一个键值对,将快速权重网络将k映射到v并计算点积损失:计算梯度并对块内所有b个tokens梯度求和每个块都有一个自适应学习率执行权重更新,之后计算L2归一化得到之后更新查询矩阵的权重更新输出也就是apply输出到加号的那根线最后经过FFN输出为新的块特征,上述分析均省略残差结构。3应用场景应用新视角生成、语言建模、视频扩散模型wan转换成自回归模型这个工作最妙的是可以针对各种场景来设计不同的applyA和updateU顺序a完全双向注意力单个包含所有数据的大块上一般就是图像集合用于新视角合成保证所有输入图像同时互相可见。流程W0--(A on 全块)-- 输出 --(U on 全块)-- W1b块间因果注意力用于1D有序文本序列的语言建模当前块只能看到自身及之前的历史块。先U后A在连续的块序列上迭代执行。流程W0--(U on 块1)-- W1--(A on 块1)-- 输出1W1--(U on 块2)-- W2--(A on 块2)-- 输出2c偏移块间因果注意力结合滑动窗口的语言建模先A后U但在连续的块序列上迭代执行。流程W0--(A on 块1)-- 输出1 --(U on 块1)-- W1W1--(A on 块2)-- 输出2 --(U on 块2)-- W2...d跨块因果注意力视频扩散模型去噪时当前帧块只能依赖之前已去噪的干净帧块。仅在部分指定块上执行U但在所有块上执行A。流程W0--(U on 块1)-- W1--(A on 块1,2,3...)-- 输出W1--(U on 块3)-- W2--(A on 后续块...)-- 输出。三、Zipmap1、概述motivation当前的VGGT和pi3方法虽然高质量重建但是效率低下。CUT3RTTT3R方法采用了顺序建模方法或局部划分策略虽然效率大幅提高但牺牲了重建质量。所以Zipmap基于LaCT框架来优化一个两全其美的方法。contributionVGGTLaCT由于有VGGT所以可以实现无序图像集合的离线重建。2、架构四、LoGeR1、概述motivation针对时序性极强的视频流。LoGeR的分块、因果处理方式和混合记忆设计都是为了应对帧与帧之间紧密的几何依赖和长时间运行下的累积误差。contribution1SWATTT的组合记忆这个SWA是块间滑动窗口注意力后面会细说2LoGeR首次证明了一个纯粹的前馈模型无需任何后端优化即可直接处理长达数分钟、包含上万个视频帧近两万帧、轨迹长度达十几公里的极长视频序列。3提出了一个超强pipeline基于1的pi3-chunk并且用VBR数据集训练长序列视频数据集2、架构1SWATTT/pi3-chunk每一个chunk内都执行DINO patchifier操作VGGT同款提取特征方法但是当我们计算第N个块时我们要先将第N块特征与第N-1块的特征拼接计算自注意力这也就是所谓的滑动窗口注意力SWA然后再把第N块的部分输出用来进行TTT工作。其实SWA 层就是利用上一个块N-1的信息作为条件来计算并生成当前块N的、经过上下文增强的令牌表示。其输出就是当前块N的增强版令牌这些令牌随后会流入后续的 TTT 层和块内双向注意力层进行进一步处理。TTT块之后再进行块内bi-attn操作最后输出头继承于工作点云解码器和相机姿态解码器并计算局部点云全局点云和位姿loss的和这个与cut3R相同参考论文https://arxiv.org/abs/2601.22615https://arxiv.org/abs/2505.23884https://arxiv.org/html/2603.04385v1https://arxiv.org/abs/2603.03269