2026年爆了!OpenAI百万行代码全由AI完成?秘密武器曝光: Harness Engineering让AI从“捣蛋鬼”变“生产力大神”!

发布时间:2026/6/13 22:03:01

2026年爆了!OpenAI百万行代码全由AI完成?秘密武器曝光: Harness Engineering让AI从“捣蛋鬼”变“生产力大神”! 2026年AI Agent仅用Harness Engineering系统即可完成百万行生产代码无需人工干预。该系统如同AI的“缰绳”通过约束、反馈、文档和工具等设计使强大但不可预测的AI模型变得可靠。文章深入解析Harness的核心概念、运作机制并介绍了OpenAI、Anthropic、ThoughtWorks等公司的实践方案揭示了AI工程新方向的关键环境比模型更重要。文章总结了5种Harness制品、三大阵营的技术思路、5条共识原则以及Harness随模型进化而“衰减”的悖论强调设计优秀约束并持续优化的工程师才是2026年的核心竞争力。2026 年 2 月OpenAI 一个小团队交付了 100 万行生产代码。没有一行是手写的全部由 AI Agent 完成。人类做的事情是设计一套系统让 Agent 变得可靠。这套系统现在有了名字Harness Engineering。几周之内Anthropic 发表了 3 篇相关论文ThoughtWorks 形式化了一套框架Hugging Face 的 Philipp Schmid 称它为2026 年最重要的工程学科。一个新的工程方向在 90 天内成型但在 AI 基础设施团队之外真正理解它的人并不多。这篇文章尝试把它讲清楚。Harness 是什么1. 定义最简洁的定义来自 ThoughtWorksAgent Model HarnessHarness 是除了模型之外的一切约束 Agent 不跑偏的规则、捕捉错误的反馈回路、告诉 Agent 当前处境的文档、它被允许使用的工具。去掉 Harness模型只能在代码库里摸索前行。加上合适的 Harness它就成了一个能交付生产代码的系统。这个名字来自马具。缰绳、鞍和嚼子将一匹强壮但不可预测的动物引导到有用的方向上。核心思路不是让马变聪明而是通过装备设计让它的力量变得可控。2. 操作系统类比Philipp Schmid 给出了最好的技术类比模型 CPU原始算力上下文窗口 内存有限的、易失的工作内存Harness 操作系统管理 CPU 看到什么、什么时候看到Agent 运行在上面的应用模型很强大但如果没有操作系统来管理内存、调度任务、执行规则它就只是一块硅片。大多数人在用 Agent 的时候实际上缺少这样一个操作系统层。这也是很多 Agent 在生产环境中不稳定的根本原因。3. 2026 年发生了什么变化LangChain 在 Terminal Bench 2.0 上用同一个模型跑了两次唯一的区别是 Harness。旧 Harness52.8 分新 Harness66.5 分Vercel 走了相反的方向他们砍掉了 Agent 80% 的工具结果性能反而更好了。2026 年一个值得正视的事实Agent 从来不是难点Harness 才是。如果说 2025 年是 AI Agent 证明自己能写代码的一年那 2026 年就是我们认识到环境比模型更重要的一年。Harness 的 5 种制品4. AGENT.md / CLAUDE.md 文件最通用的 Harness 制品。分布在代码库各处的 Markdown 文件Agent 在每次会话开始时读取它们就像新工程师入职时的引导文档。内容包括项目上下文、编码规范、架构决策、我们这里怎么做事的指南、当前进行中的工作。OpenAI 叫它 AGENT.mdAnthropic 叫它 CLAUDE.mdCursor 用.cursorrules。名字不同原理一样每个主要模块一个文件随项目演进更新。没有它Agent 每次会话都从零开始有了它Agent 每次会话都带着背景信息启动。5. JSON 特性列表进度追踪器当 Agent 跨多个会话构建一个完整应用时每次会话的上下文窗口都是空白的。它怎么知道哪些已经做完了靠一个 JSON 文件。每条记录定义一个特性、验证方法、通过/失败状态。Agent 在会话开始时读取这个文件选择优先级最高的失败项实现它标记为通过提交重复。为什么用 JSON 而不是 MarkdownAnthropic 发现 Agent 意外覆盖 JSON 的概率比 Markdown 低得多。看似小细节但在 6 小时无人值守运行中这类差异的累积影响相当可观。6. 会话初始化例程每次会话都用同样的方式启动。每一次都是。Anthropic 的 7 步启动序列确认工作目录读取 git 日志和进度文件从特性列表中找到优先级最高的未完成项启动开发服务器运行基础端到端验证实现一个特性提交附带描述性消息并更新进度没有它Agent 需要花前 20 分钟搞清楚当前状态每次会话都在做重复劳动。有了它Agent 可以立刻进入状态直接开始工作。7. Sprint 契约在 Agent 写任何代码之前先由两个 Agent 协商。Generator Agent 提出要构建什么、如何验证成功。Evaluator Agent 审查方案是否完整、成功标准是否明确。双方达成一致后才开始实现。这本质上就是一个设计评审只不过参与者换成了 AI。为什么这很重要如果让 Agent 在同一个 pass 里既做规划又做执行产出质量往往不稳定。即使规划步骤由 AI 完成独立的规划环节也能显著提升输出质量。8. 结构化任务模板在写代码之前Harness 先分析真实的代码库产出一份基于实际情况的影响图真实的文件路径不是臆造的、真实存在的符号名、可以遵循的现有模式、具体的验收标准。然后才开始实现。这听起来理所当然但大多数团队跳过了这一步。结果 Agent 只能猜测文件结构编造不存在的 API 端点产出的代码与现有代码库风格脱节。先给 Agent 提供基于真实代码库的上下文产出质量会好得多。三大阵营三个团队撞上了同一堵墙然后各自造了不同的梯子。9. OpenAI环境优先OpenAI 的 Codex 团队面对一个现实问题100 万行生产代码没有一行手写在这个规模下逐行 Code Review 已经不可行。所以他们换了思路把环境设计得足够严密让 Agent 产出的代码从一开始就具备可审查性。具体做法包括严格的依赖流Types → Config → Repo → Service → Runtime → UI、代码库各处的 AGENT.md 文件以及 Agent 直接接入 CI/CD 流水线。核心理念设计好环境然后放手让 Agent 去做。实际成果Sora Android 应用由 4 名工程师在 28 天内完成Play Store 排名第一崩溃率低于 0.1%。Codex 每周处理 70% 的内部 Pull Request。10. Anthropic把执行者和评审者分开Anthropic 遇到了另一个问题让 Agent 评估自己的产出时它倾向于给自己打高分即使人类一看就知道质量有待提升。自我评估行不通。Agent 同时充当学生和老师缺乏对自身产出的客观判断。他们的解法三个专业化的 Agent。**Planner**把两句话的提示词展开成完整的产品规格**Generator**每个 sprint 实现一个特性**Evaluator**用浏览器自动化测试运行中的应用像真实用户一样核心洞察让一个独立的评估者变得严格远比让生成者对自己的工作保持批判要容易得多。效果对比没有 Harness 的单 Agent 方案花费 、耗时分钟产出的应用核心功能存在缺陷。完整方案花费200、耗时 6 小时产出的是功能完备的软件UI 也相当精致。11. ThoughtWorks2×2 框架ThoughtWorks 的出发点不同。他们不是在做产品而是在观察 50 多个工程团队反复遇到相同的问题。他们的洞察是将所有 Harness 控制沿两个维度分类维度一什么时候运行前馈Feedforward Agent 行动之前引导反馈Feedback Agent 行动之后感知维度二怎么运行计算型 确定性的毫秒级lint、类型检查、测试套件推理型 用 LLM秒级代码审查 Agent、语义分析形成的 2×2 矩阵前馈行动前反馈行动后计算型类型系统、linter、架构规则测试套件、覆盖率分析、变异测试推理型规格文档、约束描述LLM 代码审查器、行为验证器只有前馈或只有反馈都不够两者都需要。5 条共识原则三个团队从未协调过但独立得出了相同的结论。12. 原则一上下文胜过指令让 Agent 看到世界的当前状态效果始终优于抽象地告诉它该做什么。OpenAI「给一张地图别给一本千页手册。」Anthropic用 JSON 特性列表和进度文件让 Agent 始终知道自己在哪。Red Hat在生成任何任务之前先分析真实代码库。ThoughtWorks「前馈。」基于真实文件路径工作产出的代码自然能融入代码库。基于模糊描述工作结果往往是臆造的文件路径和编造的 API。经验很明确在 Agent 写下任何代码之前先确保它知道自己在哪。13. 原则二规划和执行必须分开让 Agent 在同一个 pass 里既规划又执行产出不可靠。OpenAI 的做法是人设计环境Agent 负责执行。Anthropic 让专门的 Planner Agent 在 Generator 接触代码之前运行。ThoughtWorks 在规划和实现之间设置了强制的人工审查检查点。Red Hat 在影响图阶段和实现阶段之间设置了硬性门禁。规划步骤不一定要人来完成但它必须是一个独立的环节产出物在实现开始前需要经过审查。14. 原则三反馈回路不可商量没有反馈的 Harness 只是一个带了额外步骤的 prompt。OpenAI 让 Agent 接入 CI/CD 和可观测性系统。Anthropic 使用专门的 Evaluator Agent 通过浏览器自动化进行测试。ThoughtWorks 将其形式化为传感器并指出纯前馈方案永远无法确认引导是否真正生效。三种方案同一条原则。各方对谁来提供反馈有不同看法但对是否需要反馈没有分歧。15. 原则四一次只做一件事试图一次做太多的 Agent 会耗尽上下文失去连贯性无声地丢弃需求。OpenAI 的做法是把目标拆成更小的构建块深度优先推进。Anthropic 强制每个 sprint 只实现一个特性完成后立即提交。ThoughtWorks 采用分阶段生命周期预集成 → 后集成 → 持续监控。Anthropic 的标准流程很简洁读取进度 → 选一个特性 → 实现 → 提交 → 重复。强制渐进式推进是每个成功 Harness 的共性。16. 原则五代码库本身就是文档如果一条规范、约束或架构决策没有写在代码库里Agent 就不会知道。OpenAI 在仓库里嵌入 AGENT.md 文件。Anthropic 用特性列表、进度文件和 git 历史作为 Agent 的连续性机制。ThoughtWorks 衡量可 harness 化程度即代码库对 Agent 的可读性。没有人为 Agent 单独维护一个知识库仓库本身就是唯一的事实来源。实际意义很清楚在代码组织上投入的团队Agent 性能会随之提升。反过来结构混乱的仓库加上 AI Agent只会把混乱放大。悖论为了删除而构建17. Harness 衰减是真实的Anthropic 从 Opus 4.5 升级到 Opus 4.6 时Sprint 分解这个原本不可或缺的环节变得多余了。模型规划能力的提升使它不再必要。一个 3 月份还在承担关键功能的 Harness 组件到 4 月份就变成了额外开销。随后 Opus 4.7 发布模型开始自行验证产出Evaluator Agent 的职责进一步缩小。这就是 Harness 衰减。Harness 中的每个组件都编码了一个关于模型做不到什么的假设。随着模型能力提升这些假设逐渐过期对应的组件也就变成了负担。Opus 4.5Sprint 分解 逐 Sprint 评估Opus 4.6去掉 Sprint 分解 单次评估节省 38% 成本Opus 4.7模型开始自验证 → Evaluator 角色进一步缩小18. 为了删除而构建Philipp Schmid 的建议Build to delete。设计每个 Harness 组件时就考虑它是可移除的。定期关掉某个组件看输出质量是否有变化。如果没变化就删掉它。Manus 在 6 个月里重构了 5 次 Harness。LangChain 一年调整了 3 次。Vercel 砍掉 80% 的工具后性能反而更好。这些频繁的重构不是工程能力不足的表现而是在快速进步的模型之上构建系统的必然结果。保留无用的 Harness 组件每次运行都会消耗额外的 token却没有任何质量收益。19. 成本现实Anthropic A/B 测试的真实数据无 Harness 的 Agent$9、20 分钟UI 可用但核心功能存在缺陷完整 HarnessOpus 4.5$200、6 小时功能完备的软件精致的 UI正确的业务逻辑22 倍的成本差距换来的是一个真正可交付的产品而不是只在截图里好看的 demo。是否值得取决于一次失败发布对团队的实际代价。另一个容易被忽视的事实是Harness 与模型的组合在持续进化。的在一次模型升级后降到了124。趋势线更好的模型 更简单的 Harness 更便宜的运行 更快的产出。总结最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容最后1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关新闻