印第安纳大学突破:AI隐藏记忆实现可视化与可编辑能力提升

发布时间:2026/5/19 23:53:17

印第安纳大学突破:AI隐藏记忆实现可视化与可编辑能力提升 这项由印第安纳大学独立完成的研究以预印本形式于2026年5月12日发布在arXiv平台上论文编号为arXiv:2605.12770。有兴趣深入了解的读者可以通过该编号在arXiv上查阅完整论文。**研究概要**你有没有想过当一个AI在读一段文字的时候它究竟是怎么记住前面说了什么的大多数人知道AI有记忆但这个记忆藏在哪里、长什么样、能不能被人为修改却一直是个谜。印第安纳大学的研究者Jack Young做了一件很有意思的事——他不仅看见了这块隐藏的记忆还造出了一套工具能够像换零件一样精准替换记忆里的某一条内容。这项研究的主角是一类叫做循环状态语言模型的AI代表作包括Mamba-2、RWKV-7、Gated DeltaNet以及混合了这些机制的Qwen3.5通义千问3.5。这类AI跟我们熟悉的ChatGPT背后的Transformer架构有一个关键区别它们在处理文字时会把历史信息压缩存进一块矩阵缓存里——可以把这块缓存理解成一张动态更新的黑板每读一个新词就在黑板上写一条新记录形式是一个矩阵一张数字表格。问题在于过去的AI可解释性工具比如稀疏自编码器Sparse Autoencoder简称SAE只能读取AI处理完之后输出的信号就像只能在门口等着收快递却看不到仓库里面发生了什么。这块矩阵黑板对它们来说是完全不透明的。这项研究提出的WriteSAE是第一个能够深入这块黑板内部、理解并修改其中内容的工具。不仅如此研究者还推导出一个简洁的数学公式能够预测改动黑板上某一条记录后AI最终会说什么词的概率会怎么变而且预测精度极高。最令人印象深刻的是通过主动向黑板写入特定内容研究者成功让AI在生成文字时把一个原本几乎不会出现的词的出现率从33.3%提升到了100%。---一、黑板上的秘密AI的矩阵记忆到底是什么要理解这项研究先要搞清楚这块黑板的工作原理。普通的Transformer架构比如GPT系列在处理一段文字时会把所有历史信息都保留下来每次计算都要回头看整段历史这很耗资源。而循环状态语言模型的做法更像人类的短期记忆每读一个新词就把有用的信息提炼出来写入一块固定大小的记忆区域旧的信息会被逐步覆盖或者遗忘。这块记忆区域就是所谓的矩阵缓存。它是一张dk行、dv列的数字表格比如128行×128列共16384个数字。每读一个新词模型会根据这个词生成两个向量——一个叫键向量key一个叫值向量value——然后把这两个向量相乘得到一个矩阵加入到缓存里。这种操作叫做秩-1外积更新本质上是用两个一维的信息条构成一张二维的小表格叠加到大表格上。一个处理1024个词的模型会对这块缓存进行1024次这样的更新。每次更新都是一次微小的写入最终积累成复杂的记忆内容。当模型需要回忆某件事时它会用当前的查询向量query与这块缓存相乘把相关信息读取出来。过去的SAE工具面对这块缓存时束手无策原因很具体SAE的工作方式是把一堆向量一维数组分解成更基本的原子atomic features但矩阵缓存里的每一条记录是一张二维表格不是向量。如果你强行把这张16384维的表格拉成一个向量来分析得到的原子在几何形状上就和缓存本身对不上没法直接替换进去。这就像你想换一块手机屏幕但你的备件是圆的而手机屏幕的槽是方的强行塞进去肯定不工作。---二、WriteSAE是什么一把专门为矩阵记忆设计的钥匙研究者的核心思路其实很直接既然缓存里每条记录的形状是两个向量的外积那SAE的每个原子也应该做成同样的形状。具体来说WriteSAE训练出来的每个原子都是由两个向量vi和wi构成的写成vi?wi?和模型写入缓存时用的kt?vt?形状完全吻合。这样一来每个原子就能像乐高积木一样精确地嵌入缓存的某一个槽位。训练过程也针对性地进行了调整。WriteSAE先把当前缓存状态减去一个平均缓存去掉整体均值只保留变化部分然后训练让若干个原子的加权组合能尽量重建出这个变化部分。同时引入了TopK稀疏约束——每次只允许k个原子同时激活大部分原子保持沉默。这样得到的结果类似于分析一张照片时发现它主要由几个简单的图案叠加而成而不是一团无规律的杂乱。在参数效率上这种设计有显著优势。一个传统的平坦SAEFlatSAE原子需要16384个参数128×128而WriteSAE的原子只需要256个参数128128节省了64倍。训练完成后研究者观察这些原子发现了一个有趣的分类现象。他们计算每个原子的写入方向与模型实际写入缓存的方向之间的余弦相似度可以理解为两个方向之间的夹角的余弦值越接近1说明方向越一致发现原子们明显分成两群一群原子的方向和实际写入方向高度吻合另一群几乎没有相关性。研究者把前者叫做寄存器原子register后者叫做捆绑原子bundle。在Qwen3.5-0.8B的第9层第4头L9 H4中316个存活原子里222个是寄存器94个是捆绑原子剩下1732个则完全没有激活死亡原子。---三、换零件实验原子能不能替代真实记忆光说原子的方向对得上还不够——关键要看把一个原子替换进缓存之后模型的行为有没有发生符合预期的变化。研究者设计了一个非常直接的检验方式。在模型正常处理一段文字时每当某个原子在某个位置被激活即该原子在这个位置的编码系数最大研究者就暂停一下做三件事第一用这个原子按原始写入的Frobenius范数缩放替换掉缓存在这个位置的真实写入第二用消融ablation作为对照——直接把这个位置的写入清零第三用一个随机生成的、与该原子Frobenius范数相同的随机矩阵作为另一个对照。然后让模型继续跑完剩余的前向传播观察最终输出的词概率分布与原始输出之间的差异用KL散度衡量KL散度可以理解为两个概率分布之间的距离越小说明越接近。如果单独看L9 H4这一头在所有87个存活原子上做测试平均原子好于消融的比例是89.8%其中寄存器原子为91.4%捆绑原子为89.0%两者差异在统计上不显著Mann-Whitney检验p0.24。这意味着无论是方向对得上的寄存器原子还是方向对不上的捆绑原子只要是存活的原子替换进去都比清零要好。原子的有效性是整个存活字典的属性而不只是寄存器类的专属优势。研究者还在所有16个头上重复了这个实验结果平均原子好于消融比例为89.3%±2.6%范围82.6%至93.2%。L9 H4在同层里排第0.59个标准差属于偏好但并不特殊的头说明主文中的数字不是挑出来的特例。此外研究者还故意放大了一个捆绑原子F87余弦相似度接近0的原子的写入强度放大到原始Frobenius范数时它引起的KL散度是消融的13倍而在同等条件下放大一个寄存器原子KL散度仍然低于消融基准。两个原子唯一的区别就是与真实写入方向的余弦相似度。---四、三因子公式不用跑实验也能预测改记忆后AI会说什么研究者不满足于只知道替换有效他们还想知道替换之后具体会发生什么。为此他们推导出了一个三因子预测公式。这个公式说的是在位置t0修改缓存沿某个原子方向扰动ε对之后位置t处某个词tok的对数概率的影响大约等于三个数相乘的结果。第一个数叫门控积gate product是从位置t0到t之间每一步的遗忘门系数的连乘代表这条记忆在传播过程中还剩多少能量。第二个数是原子的读取向量wi与位置t处的查询向量qt之间的内积代表这条记忆有多容易被当前查询读到。第三个数是原子的写入向量vi与词tok的反嵌入矩阵行向量之间的内积代表这条记忆有多强的倾向性促使模型输出这个词。这个公式的推导过程本质上是一个线性近似。从扰动点出发扰动沿着模型的循环传播每一步都会被遗忘门衰减同时被Householder矩阵一种特殊的线性变换轻微调整方向。研究者证明对于寄存器原子方向与真实写入对齐的原子Householder矩阵的扰动项在大多数步骤很小可以近似忽略因此扰动基本上只是被逐步衰减保持原来的方向不变。这个近似成立的程度用实验数据来看在50个原子×4个扰动强度共200个实验单元中这个三因子公式预测的结果与实际测量值之间的R?中位数达到0.983四分位范围为[0.977, 0.990]所有200个单元的R?都超过0.95。用普通话来说这个公式解释了实际变化的98%以上的方差——几乎可以用来当作精确预测工具。不过这个公式有边界条件。在Mamba-2L24 H0和Qwen3.5-4BL12 H8上用同样的公式R?变成了负数-0.07和-0.05说明公式中的门控积部分是GDNGated DeltaNet专属的其他架构的门控机制不一样需要另外推导。---五、直接动手主动写入记忆操控AI的输出有了这个公式研究者就能反过来用它给定一个想让AI多说的词T算出一个最优的安装方向然后把这个方向写入缓存看AI是否真的会更多地输出这个词。第一个实验是擦除。针对原子F412在其自然激活位置150个位置把这个原子的贡献从缓存中抹去然后观察F412最喜欢促进的那个词Qwen分词器编号98818对应空格字符space的对数概率变化。结果中位数下降了0.116 nats统计检验p1.07×10??置信区间为[-0.265, -0.042]。这个词的排名从原始的第68485位在词汇表中排第68485名跌到第77444位。作为对照在F412不激活的150个位置做同样的擦除操作没有显著影响中位数变化0.016p0.15说明效果确实是F412对这个词的特定作用而不是任意的全局扰动。第二个实验是单点安装。对2000个原子-词-上下文三元组用公式计算出安装方向在单个缓存位置安装然后看实际的词概率是否往预测方向变化不管大小只看符号。结果符号对了84.6%置信区间[83.0%, 86.2%]。幅度的预测精度较低Pearson r0.162这意味着公式擅长预测往哪个方向变但不太擅长预测变多少。第三个实验是持续三位安装也是最令人印象深刻的结果。研究者选取那些目标词原生排名在100到1000之间既不是特别高频、也不是太冷僻的词在连续三个缓存位置以3倍原生Frobenius范数的强度写入对应的安装方向然后让模型贪婪解码生成20个词看目标词是否出现。在300个这样的上下文中目标词出现率从原生的33.3%跳到了100%提升了66.7个百分点第一步的对数概率支持量中位数为1.27 nats。剂量不是线性的1.5倍强度得到66.7%3倍强度得到100%6倍强度反而饱和回落到16.7%说明过度写入会破坏上下文的整体连贯性。对于原生排名极低≥17000名的词安装操作确实把它们的排名提升了4039到17526位但仍然到不了排名前几三步贪婪解码不够把它们推进输出序列。---六、跨架构测试这把钥匙能开几把锁WriteSAE的设计理念是解码器原子的形状要和模型的原生写入形状匹配所以对不同写入机制的模型需要用不同形状的原子。研究者系统地测试了几类架构。RWKV-7的每步写入是秩-2外积两个外积之和理论上比秩-1更复杂。测试结果寄存器余弦相似度中位数0.180低于GDN的0.262但高于Mamba-2的0.0575。然而在替换测试中WriteSAE和FlatSAESVD两种方法都在消融基准附近徘徊45.3%和47.8%说明RWKV-7这个头的替换方法还需要进一步研究。Mamba-2是对角状态空间模型其写入机制是对角更新而非外积。对它设计了对应的对角形状原子在Mamba-2-370M L24 H0上测试2500个激活事件中原子好于消融的比例为88.08%置信区间[86.8%, 89.3%]。相比之下用FlatSAESVD方法只有76.30%架构匹配的WriteSAE高出6.55个百分点。不过在Mamba-2上三因子公式的R?是负的说明公式中的门控积机制不适用对Mamba-2做主动安装实验时完全没有效果0%目标词出现率3600个试验。这几类架构的测试结果揭示了一个规律寄存器余弦分离度从高到低依次为GDN0.262RWKV-70.180Mamba-20.0575和各自写入机制的秩从高到低的顺序基本一致。写入机制越干净越接近纯秩-1外积字典的分离度就越高。---七、跨规模测试从0.8B到27B规律还在吗研究者还在Qwen3.5的不同规模版本上测试了WriteSAE的表现。在0.8B版本L9 H4上寄存器原子余弦中位数为0.262共222个寄存器原子在4B版本L12 H8上余弦中位数降到0.152有220个寄存器原子在27B版本L32 H16上余弦中位数进一步降到0.085有147个寄存器原子。规律很清晰随着模型变大寄存器原子的方向对齐度下降但始终高于0.05的阈值类别仍然存在。然而替换测试在4B版本上失败了。用和0.8B完全相同的SAE训练配置在Qwen3.5-4B L12 H8上做原子好于消融测试结果是48%接近随机猜测。这不是因为SAE训练得不好——4B版本的SAE验证集MSE5.6×10??甚至比0.8B2.2×10??更低。问题在于SAE的训练目标是最小化状态重建误差而替换测试要求的是写入方向对齐这两个目标在规模扩大时会出现解耦。简单说模型越大重建状态很准但不代表原子的写入方向也准。要在4B及以上规模做有效替换需要在训练目标中直接加入写入方向对齐的约束这是作者留待未来工作的方向。---八、段落级放大实验把记忆工具用在更大的任务上研究者还做了一个更宏观的实验看看WriteSAE能不能影响模型生成的整体文本风格。他们用在0.8B上训练好的SAE字典去干预一个完全没见过的更大模型Qwen3.5-4B-Base4B版本的基础模型。做法是在4B模型第9层的每个头里找出那些在句子边界处段落结束、换行等位置激活值明显高于非边界处的SAE原子每个头取前10个然后在推理时把这些原子的激活系数人为放大2倍、5倍或10倍然后让模型生成400个词统计每400词里换行符的数量。结果放大5倍时换行数量从原始的16.8个下降到11.2个降幅33%在40个提示的配对t检验中p0.001Cohens d0.55在Bonferroni多重比较校正后依然显著校正后p0.004。对照组用同等范数的随机原子放大10倍换行数量反而从16.8上升到19.0高于基准说明效果是这些边界原子的方向特异性造成的而不是简单地注入了更多能量。放大10倍时换行数量回升到13.4呈现出非单调的剂量-效应关系和前面生成干预实验中的饱和现象一致。段落数和平均词长也有相同方向的变化段落数从7.5降到6.2词长从5.54降到5.24幅度略小。作为负对照用FlatSAE放大同类特征只改变了词长4.86降到3.53对段落结构没有影响说明BilinearSAE提取的边界特征包含了更丰富的结构信息。研究者还在4B模型的L12 H8上尝试放大专有名词差异特征在包含专有名词的位置激活值明显高于其他位置的原子但对大写词率完全没有显著影响Δ-0.001p0.86。原因是那个头里的特征激活差异值极小最大|均值差|0.0047比边界特征的信号弱了一个数量级字典里根本没有把专有名词和非专有名词分开的有效原子。这个失败案例说明了一个重要边界缓存槽干预需要在原子激活差异足够显著的地方才能奏效不是所有头都有这种能力。---归根结底这项研究做的事情可以用一句话概括它造出了第一把能直接插入AI记忆矩阵的钥匙不仅能读出里面写了什么还能换掉其中的某一条并且附带了一个预测换完会发生什么的数学公式。对普通用户来说这项研究离实际产品还有一段距离但它打开了一个新方向未来或许可以在AI运行的过程中有针对性地调整它的记忆内容从而更精确地控制AI的输出风格和内容方向而不需要重新训练整个模型。对AI安全和可解释性研究者来说这意味着循环状态模型的内部行为第一次有了可以精确操作的接口——以往只能在输出端观察现象现在可以在记忆端直接实验。研究本身有几个清晰的局限。三因子预测公式目前只在Qwen3.5-0.8B的GDN架构上完全有效在其他架构上需要重新推导。替换测试在4B以上规模的模型上失效需要在训练目标中加入写入方向约束。RWKV-7的替换测试整体没有成功秩-2写入机制对应的原子设计还需要改进。这些都是作者在论文中明确指出的未来工作方向。感兴趣的读者可以通过arXiv编号2605.12770查阅完整论文代码和检查点也已在GitHubJackYoung27/writesae和HuggingFaceJackYoung27/writesae-ckpts上公开发布。---QAQ1WriteSAE和普通SAE有什么本质区别A普通SAE稀疏自编码器的原子是一维向量只能分析AI输出端的激活信号无法插入矩阵形式的记忆缓存。WriteSAE的原子被设计成两个向量的外积秩-1矩阵形状和循环状态模型每步写入缓存的原生格式完全一致因此可以直接替换缓存中的某条记录并继续正常前向传播这是WriteSAE的核心创新。Q2三因子预测公式为什么在Mamba-2上不管用A三因子公式中的第一个因子门控积是把从扰动位置到读取位置之间每步的遗忘门系数连乘起来。这个设计依赖GDNGated DeltaNet那种乘法遗忘门机制。Mamba-2用的是对角状态更新没有同样形式的乘法门控导致公式中的门控积这一项无法正确反映扰动的传播R?因此变成负数公式在Mamba-2上失效。Q3WriteSAE对AI安全研究有什么潜在价值AWriteSAE首次提供了一个能在循环状态模型记忆层面做精确干预的工具。在AI安全研究中了解模型记住了什么以及某条记忆如何影响输出是理解模型行为的基础。WriteSAE让研究者可以擦除、安装或替换特定的记忆写入从而测试哪些记忆内容对特定输出至关重要这对识别和修正有害的内部表示提供了新的操作接口。

相关新闻