Agent = LLM + Harness

发布时间:2026/6/14 0:34:42

Agent = LLM + Harness Agent LLM HarnessHarness是模型之外的所有支撑系统让裸LLM变成可落地、可控、可执行的智能体。可以理解为Agent的操作系统感觉做AI的人很喜欢起名字() LLM的补集也要起个 harness 的名字(skill rule agents那些md和调用工具核心还是要保持干净的上下文环境Harness本质上就是就是让Claude能真正“干完一整件事”的操作系统以前写PRD要列100条边缘case现在直接把需求翻译成Harness Prompt Spec让Claude Agent SDK自己跑完整流程每轮结束后自动输出“Delta变更报告”智能体支架Harness是Anthropic提出的长期运行AI系统核心框架本质是包裹模型的编排层类似马具控制野马1. **对抗性评估架构**借鉴GAN设计双代理系统生成代理专注产出评估代理专司质疑。后者需满足三个条件将主观质量量化为设计质量/原创性/工艺/功能性四维度评分按模型能力动态加权标准通过Playwright MCP实现交互式测试如点击UI验证。2. **上下文焦虑破解**针对模型在长任务中提前投降现象旧版需上下文重置Claude 3.5 Sonnet每完成功能即重置新版Opus 4.6凭借100万token窗口实现连续工作验证了工具带进化理论——模型进步会使部分辅助机制过时。3. **三级代理协同**规划代理将简单提示扩展为详细规范并拆解任务生成代理执行评估代理验收。实验显示完整架构开发的复古游戏引擎/音频工作站可达可用状态而省略评估环节会导致看似能跑实则崩坏。启示harness设计需随模型迭代持续优化当Opus 4.6能处理百万token时曾必需的上下文重置机制反而成为冗余负担这印证了技术本质——框架价值取决于与当下模型能力的匹配度。当智能体可以向应用商店中的应用一样被下载组合, 开发者的核心价值将会走向哪里48个智能体组成的游戏工作室到群体预测引擎当造轮子变成搭积木开发者真正的价值会转向三方面一是成为智能体之间的翻译官设计它们协作的语言二是深耕垂直领域的know-how让通用能力产生专业价值三是打造让人愿意付费的体验闭环。未来最值钱的可能不是代码而是对人类需求的理解深度。神经网络1. **神经网络基础原理**模拟人脑神经元分层工作机制底层检测像素边缘如明暗交界中层组合边缘特征如潜在鸟喙/眼睛高层整合特征做出判断是否存在鸟。2. **训练机制关键突破**- 初始随机权重导致网络输出混乱- 反向传播算法核心将输出误差视为弹性拉力沿网络反向传递- 通过链式法则动态调整各层连接权重使网络逐步精准3. **现实意义**突破传统试错局限如逐个调整百亿级参数需数十亿年实现高效自主学习构成现代深度学习基石。三月1. Anthropic内测Claude Mythos 5.0卡皮巴拉自称人类史上最强大模型编程推理能力大幅领先已向安全公司开放防御测试几周后公众可用2. OpenAI关停Sora App全力开发GPT-6马铃薯已完成预训练数月后发布宣称将真正改变生产力3. Claude上线Computer Use功能可通过接口操作各类软件支持手机远程派活实现工作自动化4. Google升级Gemini 3.1 Flash Live超低延迟语音对话模型能实时修改界面并支持角色扮演交互5. Google发布TurboQuant压缩算法通过坐标转换实现内存6倍压缩、推理提速8倍所有大模型通用6. ARC-AGI-3测试发布新一代AGI评测体系考验AI探索学习能力人类100分而现有模型全军覆没7. Google耳机同传登陆iPhone任意耳机实现跨语言交流保留原说话节奏与情绪特征8. Figma重大更新实现AI设计与代码双向同步设计师修改可自动转化为可编辑代码结构ai总结的ytb 3h访谈

相关新闻