
这项由Mind Lab心智实验室主导完成的研究发表于2026年6月论文编号为arXiv:2606.02437完整标题为《On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters》。有意深入了解的读者可以通过该编号在arXiv上检索原文。你有没有遇到过这样的烦恼每次打开AI助手它好像完全不认识你上次你告诉它我不喜欢吃香菜这次它还是给你推荐了撒满香菜的菜谱。它记不住你的习惯不了解你的偏好更不知道你上周遇到了什么困难。说白了现在绝大多数AI助手都像一个拥有过目不忘本领的陌生人——知识渊博却完全不认识你。Mind Lab的研究团队意识到这个问题的根源不是AI不够聪明而是AI缺乏一种属于个人的持久记忆机制。他们提出了一个大胆的设想能不能让数百万普通人每个人都拥有一个基于同一个超级AI大脑、但又拥有专属于自己记忆和习惯的私人AI模型这个设想听上去昂贵得令人咋舌——毕竟一个顶级AI模型动辄耗费数亿美元训练——但研究团队找到了一个极为精妙的解决方案而且这个方案的灵感来自于人类自身的基因组。研究团队的核心发现是我们每个人的DNA中有超过99%的基因序列与其他所有人完全相同正是这不到1%的微小差异造就了地球上七十多亿各不相同的人。AI系统完全可以遵循同样的逻辑——一个万亿参数级别的共享基础模型提供通用智慧而每个用户拥有一个极小的个人适配器这个适配器只占基础模型参数量的不到1%却足以记住你这个人的所有独特之处。这种极小的适配器在学术界有个名字叫做LoRA低秩适配研究团队将其比作人类基因组中那不到1%的个体差异。这篇研究构建了一个三轴联动的完整框架他们把这三个方向分别称为纵向提升Scale Up、横向缩减Scale Down和规模扩张Scale Out。这三个维度相互依存缺一不可共同构成了实现百万私人AI模型这一宏大目标的技术路径。接下来我们就沿着这三条轴线一步步拆解这个研究到底做了什么、发现了什么、以及这对普通人意味着什么。一、纵向提升为什么基础模型越强个人适配器才越有价值要理解纵向提升的含义先从一个烹饪类比说起。假设你是一位资深厨师你的基本厨艺非常扎实已经掌握了几乎所有菜系的底层逻辑。这个时候如果有人告诉你这道菜要加一点点柠檬汁你马上就能理解这个微小调整能带来怎样的风味变化并且精确地执行它。但如果换成一个刚刚学做饭的新手同样是这一句加一点点柠檬汁他可能完全搞不清楚该怎么操作因为他连基础都不扎实。AI模型的个人适配也遵循完全相同的逻辑。适配器的作用是在共享基础模型的能力上小幅调整让模型的行为更符合某个特定用户的需求。如果基础模型本身的能力很弱这种小幅调整就像在一碗白开水里加柠檬汁——依然是一碗不太好喝的水只是多了一点柠檬味。但如果基础模型已经非常强大小幅的适配就能产生巨大的杠杆效应让最终的输出质量大幅提升。研究团队用强化学习RL可以理解为通过反复试错和奖惩来让AI学习来测试这一想法。强化学习有一个固有的局限性它只能强化那些模型已经会一点点的行为而无法凭空创造全新的能力。这就好比你可以通过不断练习让一个有运动天赋的人成为奥运冠军但你无法通过练习让一个完全没有音乐感的人变成世界级钢琴家。因此基础模型越强强化学习能够强化的行为就越丰富、越精细。为了验证强大基础模型加上小型LoRA适配器比弱小模型加上全参数训练更高效这一假设研究团队做了一组对比实验。他们对比了三种方案对一个15亿参数的小模型做完整强化学习训练、对一个70亿参数的模型用rank64的LoRA适配器可训练参数约1.6亿做训练、以及对一个320亿参数的模型用rank8的LoRA适配器可训练参数仅约7000万做训练。结果让人印象深刻——在AIME 2025和GPQA Diamond这两个高难度数学与科学推理测试上参数量最大的模型配合最小的适配器反而取得了最高的归一化增益分别为20.61%和33.02%而参数量最小的完整训练模型增益最低8.33%和25.00%。这直接证明了当预算固定时基础模型的强度比可训练参数的数量更重要。然而要在一个万亿参数级别的模型上跑强化学习绝不是把算法稍作修改那么简单。研究团队以Kimi K2这个拥有1.04万亿总参数激活参数326亿的超大规模模型为测试对象构建了一套完整的分布式训练系统。他们的核心设计思想是把并行计算看成一种可以灵活调度的资源而不是一个固定的布局。采样轨迹让模型试着回答问题并记录过程需要高吞吐量的推理引擎而更新参数根据答对答错来调整LoRA权重需要完全不同的分布式计算框架。这套系统成功让万亿规模的LoRA强化学习所需的计算量降低到传统全参数强化学习的约10%同时训练曲线保持平稳没有出现灾难性的崩溃。不过规模越大能出错的地方也越多。研究团队发现了一类在小模型训练中几乎不会遇到的规模诱导失效模式。这类问题中最典型的是训练-推理不一致TIM。问题出在一种叫做专家混合MoE的稀疏模型架构上——这类模型在处理每个输入时只会激活其中一小部分专家模块而不是所有模块都参与计算。当推理端和训练端的细微数值差异导致不同的专家被激活时等于两端实际上在运行不同的计算图梯度更新就不再针对产生样本的那个策略整个强化学习循环的数学基础就瓦解了。针对这个问题研究团队开发了一种叫做路由回放R3Router Replay R3的方法。原理很直接在采样轨迹时把每个token被路由到哪些专家的决策记录下来在训练时强制重新播放同样的路由决策确保训练端看到的计算路径与推理端完全一致。实验数据显示R3不仅大幅降低了TIM指标最大概率差、标准差和均值差均明显下降还让KL散度衡量策略变化幅度的指标维持在近零水平梯度也更加稳定最终使数学任务的验证准确率持续单调上升而没有R3修正的基线方案则出现了明显的退化。另一类失效来自对GLM5系列模型的支持工作揭示了适配器语义失效的问题。GLM5融合了多头隐式注意力MLA、深度稀疏注意力DSA、多令牌预测MTP等多项前沿技术。当LoRA适配器被套用在这些非标准模块上时可能出现一种诡异的情况适配器文件成功加载了但实际执行的计算已经不是当初训练时的那个计算。这就像你把一份精心准备的私房菜食谱给了一个厨师但这个厨师用了一套完全不同的炉灶火候的含义已经发生了根本性变化。对于个人模型而言这个问题尤为致命——适配器存储的是用户的记忆和习惯如果推理时偷偷换了个解释用户的记忆就在不知情的情况下丢失了。二、横向缩减把个人适配器缩小到极致同时保持可靠性搞清楚了为什么基础模型要强大下一个问题就是个人适配器能缩小到多小这个问题的答案直接决定了未来服务百万用户的经济可行性。研究团队以Qwen3-8B模型为实验平台用强化学习PPO算法跑了一个涵盖216次独立实验、横跨9个不同rank值从1到256、4种批大小、每种配置6个随机种子的超大规模网格搜索。这是目前已知最系统性的LoRA rank效应研究之一。结果打破了一个直觉性的假设——很多人以为LoRA的rank越大效果越好rank越小效果越差就像水管越粗流量越大一样。但实验揭示的是一幅更复杂、更有趣的图景rank 16到32是最优部署区间获得了最高的平均增益和最稳定的表现rank 64以上是成本警示区可训练参数和存储开销随rank平方增长但表现提升微乎其微最佳单次运行成绩甚至没有超过rank 16到32而rank 1到4才是真正令人惊喜、也令人困惑的区间。rank 1到4的行为模式是这样的把6个随机种子的最佳成绩拿出来看rank 1的最好结果几乎与rank 16到32的最好结果持平但如果看6次运行的平均成绩rank 1就明显下滑而且不同种子之间的结果差异极大。这意味着极小的适配器并非能力不够而是不够稳定——就像一个天赋极高但状态极不稳定的选手他偶尔能发挥出冠军水平但大多数时候你不知道他今天的状态如何。这个发现把问题从rank够不够大转变为怎么让极小的rank变得可靠。研究团队把目光投向了初始化方式。标准LoRA的初始化是随机的在中等rank下够用但在rank1时这个仅有的一个方向如果选错了就没有第二个方向来补救。一个看似很自然的想法是利用预训练权重矩阵的奇异值分解SVD可以理解为把一个矩阵拆解成若干个从最重要到最不重要排列的方向来选择初始化方向。PiSSA方法使用最重要的方向MiLoRA方法使用最不重要的方向两者都在监督学习场景下表现良好。但研究团队发现把这两种方法直接搬到强化学习场景下会出现严重的训练崩溃——奖励值急剧下降KL散度策略变化量爆炸式增长。研究团队为此推导了一套严谨的理论解释。强化学习的数学结构决定了它对早期策略漂移极为敏感。在强化学习中模型通过采样来收集训练样本然后用这些样本来更新策略。这套方法的前提是更新后的策略与采样时的策略不能相差太远否则重要性权重用来校正采样偏差的系数会出现指数级爆炸。具体来说序列长度为512时如果每步的比值只偏差1%累积下来的权重可以高达163倍完全破坏了梯度估计的可靠性。因此强化学习中的KL惩罚和梯度裁剪不只是为了稳定性它们定义了一个可信赖的参数更新区间——而初始化方式决定了优化轨迹是否从一开始就在这个区间内行进。PiSSA和MiLoRA的问题在于它们都把奇异值缩放因子注入了初始化这让第一次参数更新就用光了KL约束的预算导致策略跳出了可信赖区间之后的梯度估计全部失真。研究团队提出的OLoRA-tail方法解决了这个问题使用预训练权重矩阵最不重要方向的奇异向量与MiLoRA相同但去掉奇异值缩放与MiLoRA不同。这样一来初始化既保留了有意义的预训练方向信息又不会在第一步更新时就消耗掉所有的KL预算确保策略在整个训练过程中缓慢而有控制地移动。实验结果非常有力在DeepSeek-R1-Distill-Qwen-1.5B上OLoRA整个训练过程在第100步附近崩溃而OLoRA-tail在500步内全程稳定KL散度始终接近零最终平均准确率比标准LoRA高出2个百分点58.3% vs 56.3%。更重要的是rank1的极端场景。在Qwen3-8B上标准LoRA在rank1时对批大小极其敏感批大小16时还能取得15%的基线增益批大小增加到128时增益直接变成-18%有67%的概率出现负向训练。而OLoRA-tail在rank1下无论批大小如何变化都能稳定维持约20%的基线增益。在更大的Qwen3-30B-A3B模型上OLoRA-tail以35.5%的平均通过率对比LoRA的24.0%相对提升达48%。这意味着通过更好的初始化一个理论上最小的适配器可以做到原本需要更大适配器才能做到的事情。研究的第三个贡献在于解决超参数迁移问题。LoRA有三个紧密耦合的参数rank、缩放系数alpha和学习率。当出于内存或速度的考虑需要改变rank时学习率应该如何相应调整研究团队把这个问题命名为Triquetra。分析显示LoRA对权重矩阵的实际更新幅度正比于 学习率 × alpha? / rank。由此可以推导出三种不同的调整策略如果alpha固定rank增大时实际更新幅度减小不需要调低学习率如果alpha/rank固定rank增大时实际更新幅度增大需要调低学习率如果alpha正比于rank的平方根更新幅度与rank无关学习率理论上可以直接复用。在AG News文本分类这类简单任务上固定alpha和平方根alpha规则都表现不错。但在Qwen3-4B MATH这类高难度推理任务上可用的学习率区间会急剧收窄平方根alpha规则表现最为稳健——它既能保持最优学习率点基本不随rank变化又在高rank时提供了更好的绝对性能。对于一个需要训练数百万个适配器的系统这个规律极为重要它让平台在用户改变适配器规格时不必对每个用户重新搜索最优学习率从而大幅降低运营成本。研究团队还将Scale Down的探索延伸到了静态LoRA之外的领域引入了一种叫做δ-mem的机制。普通LoRA的适配器一旦训练完成就固定不变无论你在上面运行任何输入它的作用都是一样的。δ-mem则不同它维护一个随着对话推进而动态变化的小型记忆状态维度为r×r的矩阵。每处理一个新的输入δ-mem先从当前记忆状态中读取信息用这个信息对骨干模型的注意力计算产生低秩校正然后把当前输入的关键信息写入记忆状态用于下次使用。写入时采用了一个聪明的delta规则只有当新信息与记忆中现有内容存在偏差时写入的幅度才大如果新信息与已有记忆高度一致就几乎不写入避免重复信息占据有限的记忆空间。在Qwen3-4B-Instruct基础上的系统性评测中δ-mem在多个需要长期记忆的基准测试上全面优于静态文本检索、普通LoRA适配和其他参数化记忆方案。在MemoryAgentBench上δ-mem将平均得分从基线的29.54%提升到38.85%在LoCoMo长期对话记忆测试上多状态写入变体达到了最高分在HotpotQA多跳问答测试上精确匹配分从42.35%提升到49.41%。最关键的是δ-mem仅引入约0.12%到0.48%的额外参数远低于其他重量级记忆方案却能提供持续更新的历史感知能力正是个人模型所需要的那种活的记忆。三、规模扩张当百万个带记忆的AI分身同时存在时会发生什么假设技术上的挑战都解决了基础模型够强大个人适配器够小且够稳定那么当数百万个这样的适配器同时存在时会发生什么有趣的事情研究团队首先思考的是个人适配器能存储多少记忆如果容量极为有限一旦用户的交互历史变多新的记忆覆盖旧的记忆持久性就无从谈起。为了量化这个问题他们设计了一个叫做DishNameBenchmark的精心控制的基准测试——让模型记住不同位置和序号对应的菜名并回答第三道菜是什么这类问题。通过系统性地改变需要记忆的内容量和LoRA的可训练参数量研究团队绘制出了LoRA记忆容量的定量图谱。结果揭示了一个清晰的三段式规律当每个可训练参数对应的记忆令牌数低于10^-3时准确率接近100%在10^-3到10^-2之间是过渡区准确率开始下滑一旦超过10^-2准确率迅速跌向零。这意味着LoRA记忆不是一个容量无限的存储空间而是有明确上限的有界资源。rank增加主要是把这条界限往右平移但不能消除这个上限本身。在目标模块选择上实验发现只训练MLP层的LoRA适配器在单位参数的记忆效率上显著优于只训练注意力层、或者同时训练所有层的方案更不用说只训练输出嵌入层效果最差。既然LoRA记忆是稀缺资源什么东西值得写入研究团队给出了一个清晰的记忆分层框架。当前对话的内容适合放在上下文窗口里可查阅的文档、事实和笔记适合放在检索系统里日历事件、文件状态这类需要保持外部可观察性的信息适合放在工具状态里只有技能习惯、偏好模式、个人工作流程和行为策略才是LoRA记忆的最佳候选内容。这种区分的逻辑在于LoRA记忆一旦写入就难以精确编辑因此不适合存储那些需要随时查阅和修改的事实性信息而应该存储那些改变你做事方式的结构性经验。为了验证LoRA确实能够存储有用的技能性行为研究团队在Qwen3-235B这个庞然大物上训练了一个rank32的LoRA适配器在ALFWorld家务任务模拟环境中进行测试。结果是适配了LoRA的模型在全部六类家务任务上都超越了基础模型平均得分从0.646提升到0.845。这证明LoRA确实可以存储可复用的程序性技能而不仅仅是文字表面的语气或风格调整。那么经验是如何从临时的上下文帮助变成稳定的适配器参数的研究团队提出了上下文学习Context Learning这一写入机制。其工作流程可以用徒弟偷师来类比徒弟仅有查询信息的模型先凭自己的能力作答然后师傅同样的模型但有额外的参考资料、工具输出或示例对这个回答打分最后把这个打分反馈给徒弟让徒弟在没有师傅帮忙的情况下也能做得更好。关键在于训练信号来自学徒在没有额外上下文时的输出这确保了学到的东西真的内化进了模型参数而不是只会在有提示的时候才表现好。把这个过程反复进行就形成了Context Learning循环——每次交互中有价值的信息都有机会转化为持久的参数状态。研究还深入探讨了个人适配器在社会模拟场景下的独特价值。现有的大型AI社会模拟系统通常让许多AI智能体共享同一个模型只是通过不同的提示词比如你是一个保守派政治倾向的中年人来区分不同的角色。这种方法存在一个结构性缺陷提示词改变了角色的描述但没有改变产生行为的底层策略。随着模拟进行不同智能体的行为会逐渐趋向共同的平均状态无法真实反映人类社会中持久的个体差异。研究团队在OASIS平台一个大型社交媒体模拟系统上设计了一组对照实验在游戏开发社区中部署了128到512个智能体。在每人拥有独立LoRA适配器的条件下每个智能体基于自己的历史推文训练了一个rank4的个人适配器在所有人共享同一模型的对照条件下所有智能体都从同一个Qwen3-4B-Instruct基础模型中采样决策。结果在三个层次上展现出了系统性的差异。首先是身份持久性LoRA条件下支持派用户的立场标准差是对照组的2.18到2.45倍怀疑派的也高出32%到101%说明个人适配器确实维持了更丰富的群体内部差异。其次是行动丰富度LoRA条件下产生了大量评论和原创帖子而对照组几乎没有原创帖子评论也极少——共享模型的智能体行动倾向集中在一个极窄的范围内。第三是社区拓扑随着LoRA条件下的人口规模从128增加到512有效互动社区数量从9.21增加到14.85增长61%共参与度模块性从0.502增加到0.716增长43%而社区内部的阵营同质性则从0.670下降到0.583——这意味着更大的LoRA人口不是简单地产生更多相同类型的互动而是自发形成了更丰富、更多样、甚至跨越初始立场分歧的小社区结构。这些都是对照条件中没有出现的现象。最后一个规模扩张维度是多样性作为集体智慧来源的实验。这个实验问的是如果把许多拥有不同训练历史的LoRA适配器放在一起投票集体的准确率是否会高于单个模型研究团队以Qwen3-30B为基础模型在相同的强化学习框架下仅通过改变训练数据的排列顺序和掩码策略训练了近200个稍有差异的LoRA变体然后在AIME24数学竞赛题美国高中邀请数学考试上进行多数投票。实验设置了两种对照条件一种是从不同LoRA变体各取一个回答进行投票称为协作另一种是从同一个LoRA模型中反复采样多次进行投票称为重复。数据极为清晰重复采样从k1时的36.44%准确率提升到k24时的43.78%之后趋于饱和协作则从k1时的36.44%持续提升到k198时的48.67%在所有k值上都超过了重复采样k大时的优势达到约5.33个百分点。拟合曲线显示协作准确率约等于0.386加上0.0172乘以ln(k)R?达到0.888说明这种对数增长规律拟合得相当好。核心结论是不同LoRA变体之间的差异不是可以用增加采样次数来消除的随机噪声而是代表了不同的解题策略——当这些互补策略被聚合在一起时产生了单一模型无法达到的集体智慧。四、基础设施让百万个私人AI模型真正活起来的系统架构所有这些精妙的算法最终都需要落地在实际可运行的工程系统上。研究团队介绍了一个叫做MinTManaged infrastructure for Training and serving millions of LLMs的基础设施框架作为支撑三轴框架的具体工程实现。MinT的核心设计哲学可以用图书馆管理学来类比。一座图书馆中藏书量可能高达百万册但同时在阅览室里供读者翻阅的书只有几千册而此刻被某个读者在手中翻阅的书更只有几十册。这三个层次——总藏书量、馆藏室容量、当前借阅量——对应着MinT中的三个层次全部适配器的永久存储目录可寻址目录、本地服务器的CPU内存缓存温热缓存、以及当前在GPU上实际运行的适配器批次活跃工作集。一个百万私人AI模型系统不需要同时把百万个适配器都放在GPU上只需要让这百万个适配器都有名字、有地址、可以按需调取。MinT为每个适配器维护一套完整的政策记录包括适配器权重本身、适配器对应的基础模型版本和rank配置、训练过程中生成的所有轨迹记录、已导出的服务版本历史、以及当前的服务部署状态。这套记录让每个适配器从一个匿名的权重文件变成一个有身份、有历史、可追溯的个人模型实例。研究团队给出了一组具体的数字来说明适配器-only迁移模式的价值。在Qwen3-4B模型上一个rank32的LoRA适配器文件只有252MB而合并进完整模型的检查点高达8.061GB加载时间从0.036秒变成71.820秒在Qwen3-30B模型上rank16的适配器为1.692GB而合并检查点高达61.084GB加载时间相差近十倍。对于一个需要为数百万用户分别训练和更新适配器的系统每次更新只需传输和加载几百MB的适配器文件而不是几十GB的完整模型效率差异是数量级的。在大规模服务场景下MinT还解决了一个微妙的新旧租户冲突问题。当一个新适配器注册进服务系统时如果立即开放给用户访问用户的第一次请求会触发冷加载不仅自己等待时间长实测显示16个不同适配器的冷加载形成了1.375到23.267秒的阶梯状延迟还会影响正在使用旧适配器的其他用户测试显示不加保护时现有用户的响应延迟p95高达24.03秒超过20秒的卡顿有10次。MinT通过两阶段就绪机制解决了这个问题新适配器注册后先进行预热把适配器加载进缓存预热完成后才开放给用户访问这样用户看到的新适配器已经处于热状态不会产生冷加载延迟同时对旧用户也没有任何干扰。针对大型MoE模型的适配器研究团队还发现了一个很实际的工程问题原始格式的MoE LoRA适配器虽然字节数不多但被拆分成了数量极多的细小张量对象测试中为37,248个。加载这么多小对象时Python对象构建和文件I/O的开销远超过读取字节数据本身的开销。通过打包压缩张量对象数量从37,248降至672在字节大小几乎不变的情况下冷加载速度提升了8.5到8.7倍。归根结底MinT的意义在于把个人模型从一次性的优化产物变成了持续演化的身份。用户的每一次新交互、每一次技能获取、每一次习惯形成都可以通过有控制的适配器更新被保留下来累积成一个真正了解这个特定用户的持久模型实例。说到底这篇研究的野心是大胆而清醒的。大胆在于它描绘了一幅百万私人AI并存的图景每个AI都像人类个体一样与他人共享99%以上的基础却在那不到1%的个体差异中存储了属于自己的全部独特性。清醒在于研究团队非常明确地列出了系统的边界条件——LoRA适配器不是一个人的全部记忆系统不能取代检索不能存储所有事实更不能完整地存储一个人。它做的是更窄但同样重要的一件事把一部分个体性变成可以训练、可以存储、可以调用、可以更新的本地参数状态。这对普通人意味着在不远的未来AI助手可能真的能记住你讨厌香菜记住你习惯用番茄来做红烧肉记住你三个月前在某个项目上吃过的教训记住你每次遇到同类问题时会走进的那个思维死角——不是因为你每次都在提示词里重复这些信息而是因为有一个轻量级的你的AI分身在每次交互中悄悄地把这些记忆编织进它的参数里。至于这一天什么时候到来、代价几何、安全如何保障这些都是研究团队在论文最后坦然承认的开放问题。有兴趣进一步探索的读者可以通过arXiv编号2606.02437找到完整论文这也是评估这一方向的最佳起点。QAQ1LoRA适配器和完整AI模型有什么区别ALoRA适配器是一个非常小的补丁文件只包含用来调整AI行为的少量参数通常只占完整AI模型大小的不到1%。完整AI模型包含所有的语言知识和推理能力而LoRA适配器仅仅记录相对于基础模型这个特定用户/任务需要哪些调整。两者结合使用时基础模型提供通用能力LoRA适配器提供个性化定制不需要为每个用户都保存一个完整的模型副本。Q2OLoRA-tail初始化方法为什么比普通LoRA在强化学习中更稳定A普通强化学习要求每次参数更新幅度不能太大否则模型的行为会变化太剧烈导致之前收集的训练样本失效。OLoRA-tail使用预训练权重矩阵中最不重要方向的奇异向量作为初始化同时不引入额外的缩放因子这让首次参数更新既指向有意义的方向又不会因为初始值过大而一下子突破安全更新范围从而避免了PiSSA和OLoRA出现的训练崩溃问题。Q3不同LoRA变体投票为什么比同一模型重复采样效果更好A同一个模型即使采样很多次本质上还是在同一种解题思路范围内随机探索重复够多之后边际收益就消失了。不同LoRA变体因为训练历史数据顺序、随机掩码略有不同学到了不同的解题侧重点就像不同背景的专家对同一问题有不同的直觉判断。把这些不同专家的意见汇总投票可以弥补单个专家的盲点持续产生比单一模型更准确的集体判断。