算力成本不到同行1%,性能比肩前沿,国内顶级实验室发布Agent Harness模型

发布时间:2026/6/9 14:06:09

算力成本不到同行1%,性能比肩前沿,国内顶级实验室发布Agent Harness模型 一家30人规模的实验室用不到300张GPU训练出了一个749B参数的Agent大模型算力成本不到同尺寸模型的1%。Mind Lab的Macaron-V1-Preview利用了一种新颖的LoRA混合MoL架构为一般生活场景中的高级智能体用例提供了一个可扩展、资源高效的基础。在真实生活场景的Agent任务上比肩顶级模型。Mind Lab是谁Macaron-V1-Preview怎么诞生的Mixture-of-LoRA架构怎么让模型持续进化以及不到1%的算力成本是怎么做到的。Mind LabMind Lab全称Mind Lab for Experiential Intelligence是中国第一家Neo Lab新生代实验室新兴的一类由顶级AI研究人员创立的小型AI实验室由粤港澳大湾区国家技术创新中心国际总部孵化的Mindverse心洲科技运营。创始人Andrew在深圳清华大学研究院任研发中心主任实验室负责人马骁腾是清华自动化系博士、博士后。核心研究团队约30人累计发表200篇顶会论文总引用超过5万次。团队成员的履历覆盖了国内一线AI力量的核心位置。基础设施负责人来自DeepSeek算法负责人来自字节Seed模型团队成员来自清华、MIT、NVIDIA、xAI等机构长期深耕模型训练、强化学习和高性能推理架构。去年底他们与字节、英伟达合作抢在OpenAI前CTO创立的Thinking Machines Lab之前率先完成了万亿参数LoRA强化学习的基础设施建设并获得了英伟达官方转载。万亿参数模型的强化学习基础设施是后训练实验室的试金石除大厂外此前仅掌握在极少数海外Neo Lab手中。这些底层积累为今天模型的高效后训练和持续更新迭代打下了关键的工程基石。负责人马骁腾在公开采访中说过我们不为刷榜做研究也不为创新而做研究。我们是在为了真实的场景、真实的用户、真实的价值而做研究并在这个过程中大胆地创新。这就是Macaron-V1-Preview为真实场景而生的背景。模型全景与评测表现Macaron-V1-Preview是一个749B参数的Agent大模型基于GLM5.1激活参数40B采用Mixture-of-LoRAMoL混合LoRA架构专为Agent Harness智能体运行脚手架场景深度后训练。749B的参数构成是744B基座加5个1B的LoRA适配器分别对应聊天、生活任务、编码、OpenClaw任务和路由功能。过去的大模型发布喜欢强调单项能力数学、代码或长上下文。Macaron-V1-Preview呈现的是另一种更完整、更Agent-native的能力架构面向真实任务流、工具流、交互流和用户反馈优化让模型学会在具体的产品环境中行动。先看评测数据。在长链路生活任务评测LivingBench和VitaBench中Macaron-V1-Preview拿下SOTA。LivingBench是Mind Lab围绕真实产品体验自研的benchmark评估Agent在真实生活场景中的表现。VitaBench由美团定义面对吃喝玩乐、衣食住行等问题需要处理到家、到店、OTA等服务场景。这些任务听起来简单真正考验的是模型对用户偏好和真实处境的理解。Macaron-V1-Preview在这些任务中达到目前最强表现证明它能真正进入生活场景。在谷歌生成式交互界面A2UIAgent to UI智能体到用户界面协议的评测中Macaron-V1-Preview同样取得开源模型SOTA。它是首个支持Google A2UI协议的模型得益于Mind Lab与TileRT团队在高速推理上的技术合作能在5秒内快速生成高质量、可操作的动态UI让用户通过点击、滑动和确认推进任务。传统大模型用长文本回答用户承担了巨大的理解与执行负担Macaron-V1-Preview的生成式UI直接把信息密度和操作效率拉高了一个层级。在面向OpenClaw个人智能助理的PinchBench中Macaron-V1-Preview达到92.5分成为这一评测上表现最好的开源模型。PinchBench集中考验模型处理多步任务的连续性和用户反馈的动态变化模型需要理解每一步任务之间的逻辑关系也要处理用户在不同步骤中的偏好与反馈变化。Macaron-V1-Preview在复杂工作流中拔得头筹验证了它具备多轮、多步、多反馈的真实Agent能力。Agent能力的强化训练并没有让模型丧失基础能力。在客服工具调用任务τ³-bench、代码修复任务SWE-Verified、终端交互任务Terminal2中Macaron-V1-Preview的表现接近SOTA开闭源模型水平。在数学和代码等通用任务上它能比肩同期头部开源模型。Mind Lab把Macaron-V1-Preview的聊天能力拆成了四个耦合维度。立场stance模型持有自己的态度并分享一致性consistency在压力、冲突和多轮对话中保持行为一致思考深度depth of thought对难题给出真正有角度的回应同时对其他角度保持开放表达节奏tone知道什么时候该沉默什么时候一句话比三个要点更有效。两个用户面对同一个情绪时刻可能需要截然不同的回应单一扁平的人设服务不了所有人。MoL架构与持续学习Macaron-V1-Preview的核心创新是Mixture-of-LoRA架构简称MoL。现代后训练流程把一个模型推过很多不同任务试图把所有能力合并到一组最终权重里。Mind Lab在训练过程中发现了一个尖锐的问题聊天、工具调用、推理和编码依赖不同的技能和完全不同的思维链模式一个方向的提升会悄悄吃掉另一个方向的能力合并后的模型在各项能力上都不如各自的专业前驱。MoL通过设计解决了这个冲突。思路是把共享技能和思维模式的任务聚到一个LoRA里技能差异大的任务分到同一基座上的不同LoRA里。相似任务共享LoRA可以互相增强技能画像差异大的任务各自独立进化。新领域只需训练和注册一个新的LoRA不动基座也不碰已有的专家。Macaron-V1-Preview搭载了五个专家Chat负责默认聊天和通用场景Life负责个人生活任务Code负责编码Claw负责OpenClaw风格任务L4是路由适配器。每个专家沿着自己的轨迹发展发布新能力就是训练和注册一个新LoRA的事。路由机制的设计也很巧妙。Mind Lab没有训练专门的Router模型而是把模型选择暴露为Harness层面的一件工具通过标准OpenAI兼容的tool-call API实现。默认入口适配器是L4它挂载了一个router_tool。一个中央注册表是事实来源存储每个LoRA的元数据注册新专家只是改一下元数据。Agent循环分两个阶段显式路由调用router_tool切换到合适专家处理当前用户轮次隐式路由专家完成轮次后回到L4下一次用户消息重新从默认开始。路由可调试在追踪中显示为工具调用可在标准基础设施上服务也可逆新L4只需一次注册表更新。对话中途切换LoRA会使KV缓存失效因为每个LoRA修改注意力计算。Mind Lab做了一系列跨LoRA KV缓存复用实验在切换时保留现有KV缓存接受由此带来的质量损耗。复用缓存会损失一些精度但损失在Agent实际切换的可接受范围内。MoL架构之上Mind Lab将DeepSeek V4提出的三层缓存机制扩展为涵盖对象存储系统OSS的四层缓存机制使得自研基础设施MinT能同时训练和部署多达百万个LoRA适配器并具备扩展到千万个适配器的能力。MinT管理上百万个LoRA模型在训练、评估、部署和回滚过程中只传输轻量的LoRA Adapter实时加载速度提升近十倍。后训练工程与自进化Macaron-V1-Preview的后训练不只是在数据上做文章而是在训练工程层面做了三件关键的事。第一件稳定744B稀疏基座上的强化学习。MoE混合专家强化学习要求梯度沿着生成时相同的专家路径对每个token评分实现或精度上的微小差异会让同一个token在rollout和训练阶段路由到不同专家污染策略梯度。Mind Lab的解决方案是R3Rollout Routing Replay。MinT在rollout时记录每个token选中的专家ID训练时后端在当前专家并行布局上重建该路径无法重建的token直接遮蔽。R3给出了可证明的专家路径对齐。DSA动态稀疏注意力引入了另一条不匹配通道索引器加top-k路径决定哪些token参与稀疏注意力微小数值差异会改变注意力集合。Mind Lab在实现层面逐一修复索引器RoPE布局、归一化查询和键输入、确定性top-k行为、冻结索引器默认值、长上下文THD/CP支持、DSA目标模块的LoRA加载。其余漂移通过Icepop风格的rollout修正兜底MinT持续监控每个token的训练与rollout概率比偏离信任区间的token零权重自动退出梯度。第二件把Agent Harness直接拉进训练。一个Agent不是单次前向传播它运行在一个脚手架里选择LoRA、管理工具调用、暴露记忆、格式化系统提示、以特定方式tokenize输入。Mind Lab做了明确的设计选择。把生产级Agent Harness直接放进训练把训练与服务之间的Harness行为差异当作bug在源头修复。MindForge是Agent RL训练框架把基于Pi Coding Agent的生产级Harness带入RL循环使用与生产服务相同的Router Tool、记忆布局、工具调用tokenize和Agent Harness结构。Harness Context ProtocolHCP脚手架上下文协议是让这一切可行的通信层标准化Harness如何向模型暴露和导出任务元数据、记忆状态、路由指令等配置信息。模型在MindForge rollout中观察到的一切与生产服务中观察到的完全一致。第三件也是最有意思的一件自进化。一旦Harness可以被序列化为HCP配置它就从固定执行基底变成了课程的一部分。Mind Lab在HCP配置上应用了AutoResearch将其加入围绕Macaron的优化循环。这个循环有三个阶段提示进化模型基于环境的自然语言反馈改进自己的提示、脚手架和工具使用模式全部在语言空间围绕冻结权重完成轨迹选择循环找出重写提示解锁了原始提示无法达到的轨迹上下文学习更好的轨迹被蒸馏回模型参数之前只有更聪明提示才能触发的行为变成了开箱即用的能力下一轮上下文学习从更高的基线开始。Mind Lab的观察令人振奋给定一个构建良好的环境和形状良好的奖励当前前沿级模型完全有能力进化自己。自进化不再是一个愿景性的研究方向而是变成了可操作的训练信号。这个循环是Macaron-V1-Preview从中间检查点到发布版本之间VitaBench上提升最大的单一因素。在算力方面Mind Lab使用了LoRA、DSA、MTP多词元推理、超低秩矩阵适配器、平行混合线性注意力等高效训练与推理关键技术在不到300张GPU的条件下完成了750B级别模型的训练且大部分GPU并非英伟达最新芯片型号算力成本只有其他同尺寸模型公司训练的不到1%。Macaron-V1-Preview目前已在Hugging Face上的开源权重包含五个LoRA专家和路由元数据。团队还托管了公开预览环境同时与各大主流模型做对比可以直接体验个人Agent行为端到端的效果。https://macaron-model-previews.macaron.im/MinT上的托管推理和后训练服务支持高效适配和服务模型也即将推出。Mind Lab所属公司Mindverse心洲科技由粤港澳大湾区国家技术创新中心国际总部孵化已有头部手机厂商和可穿戴硬件厂商开始接触寻求合作旨在将生成式交互界面与生活Agent模型深度整合到更多硬件载体。参考资料https://huggingface.co/mindlab-research/Macaron-V1-Preview-749Bhttps://macaron.im/zh/mindlab/research/macaron-v1-previewhttps://macaron.im/mindlab/mint

相关新闻