
文章目录先给结论你接下来不要优先读 GLM-4.5你对 agent 的轻视有一半对一半错关于 Claude Code 泄露你应该学“架构收获”不要沉迷“源码猎奇”你提到的 learn-claude-code 仓库值得看而且现在就该看我给你的下一步路线两条线并行但主次分明主线Claude Code-style harness真刀真枪做副线GLM-4.5 速读不精读你应该建立的新知识地图你要读的 agent 资料不是“词汇集合文章”路灯 1Claude Code 官方文档路灯 2learn-claude-code路灯 3Kimi K2 的 agent 部分回读路灯 4agent benchmark不要只看分数要看任务定义你接下来 14 天的具体安排第 1–2 天建立最小 agent loop第 3–4 天加入 edit 和测试闭环第 5 天加入 Todo第 6–7 天加入权限系统第 8–9 天加入 context compaction第 10–11 天加入 subagent第 12 天加入 skills第 13 天加入 memory第 14 天写一篇面试 memo面试官问你的时候你应该这样讲问什么是 harness agent问Claude Code 泄露你有什么收获问skills 和 memory 有什么区别问agent 和 workflow 有什么区别你的哲学困境我给一个解法最终建议先说大判断别人是怎么学 agent 的我给你的资源地图第一层必须读解决“agent 到底怎么构建”1. Anthropic《Building Effective Agents》2. Anthropic Academy / Claude Code / MCP 官方课程3. OpenAI Agents SDK 官方文档 quickstart第二层必须看解决“Claude Code / harness 到底有什么真东西”4. Dive into Claude Code5. Claude Code 官方文档第三层课程型资源解决“我怎么系统补课”6. Stanford CS329A: Self-Improving AI Agents7. DeepLearning.AI: AI Agents in LangGraph8. LangGraph / LangChain Academy9. Google 5-Day AI Agents Intensive / ADK Codelab第四层框架与仓库解决“我该拿什么做实验”10. OpenAI Agents SDK repo11. LangGraph repo12. Microsoft AutoGen / Agent Framework13. CrewAI第五层benchmark / eval解决“agent 到底怎么证明自己有用”我给你的最终推荐排序第 0 步先读 Anthropic《Building Effective Agents》第 1 步读 Dive into Claude Code第 2 步做你自己的 mini Claude Code第 3 步选一个框架重写选 LangGraph如果你想理解长期状态和可恢复执行选 OpenAI Agents SDK如果你想理解 tools、handoffs、guardrails、traces第 4 步补 Stanford CS329A我不建议你现在优先看的资源你的“路灯清单”我给你的导师式路线你的直觉是对的现在不应该继续顺着“大模型技术报告”惯性读 GLM-4.5。你现在的短板不是“不知道 GLM-4.5 又用了什么 MoE/RL/benchmark”而是你缺少 agent harness 的真实工程手感。我会给你一个很明确的导师判断下一步主线暂停纯模型报告阅读转入 Claude Code / harness agent 的工程拆解与复现。GLM-4.5 只作为旁支速读不作为主线。原因很简单Kimi K2 已经告诉你了主流模型厂的 agent 叙事大概就是更强 base model tool-use 数据合成 verifiable reward / self-critique RL agent benchmark。Kimi K2 自己也说它的 post-training 包括大规模 agentic data synthesis、真实/模拟环境交互、RLVR、自我批判奖励、agentic rollout、tool calling template 等等但这些报告不会教你 Claude Code 这样的产品到底怎么跑起来。你读完会觉得“懂了又没完全懂”这是正常的。先给结论你接下来不要优先读 GLM-4.5GLM-4.5 值得读但不是现在精读。它会给你补充一个“主流大模型如何把 Agentic、Reasoning、Coding 放在同一框架里训练”的视角GLM-4.5 报告声称模型通过 23T token 多阶段训练、expert model iteration 和 RL在 TAU-Bench、AIME、SWE-bench Verified 上取得强结果。(arXiv)但你已经被 Kimi K2 喂过类似东西了。你再读 GLM-4.5大概率会继续得到更大的/更聪明的模型 更多 coding 数据 更多 agent benchmark 一些 RL 后训练技巧 一些函数调用/工具调用模板这些当然有价值但它们解决不了你面试时被问的那类问题harness agent 是什么Claude Code 这种 agent 为什么能干活skills、memory、subagents、permissions、hooks 到底解决什么工程问题为什么不是“LLM 一堆 if-else”agent 产品的核心壁垒到底在哪里这些问题技术报告回答得很浅工程系统回答得很深。你对 agent 的轻视有一半对一半错你说“我觉得他们就是大模型加上围绕的环境的系统工程罢了”。这句话很关键。我会这样修正低级 agent 是 LLM 系统工程。高级 agent 是把模型能力、安全边界、上下文经济学、工具协议、状态管理、任务分解、失败恢复、权限系统、评估闭环全部压进一个可用产品的 harness。也就是说agent harness 不是“智能本身”但它决定智能能不能变成生产力。Kimi K2 的报告其实也在暗示这一点它不仅训练模型还专门讲了工具调用 token template、constrained decoding、真实/模拟环境、agentic rollout、partial rollout、Gym-like interface、真实代码 sandbox。这些不是模型参数而是 agent 能不能稳定工作的外壳。Claude Code 官方也把自己定义成一个可以读取代码库、跨文件修改、运行命令、集成开发工具的 agentic coding system。(Claude) 这正是 harness 的价值让模型能感知代码库、行动、验证、恢复、继续。关于 Claude Code 泄露你应该学“架构收获”不要沉迷“源码猎奇”最近面试官问 “Claude Code 源码泄露你看了吗有什么收获”他们其实不是要你背 50 万行代码。他们想看你有没有意识到现代 coding agent 的核心竞争力不只是模型而是 harness。公开安全分析称Claude Code 曾因 npm 包里的 source map 暴露过大量 TypeScript 源码相关分析提到 59.8MB source map、约 512K 行代码、约 1900 个文件级别的客户端 harness 暴露。(Zscaler)你面试时可以这样回答我没有把泄露源码当作“抄代码”的材料而是看公开分析和复现项目来理解 Claude Code 的 harness 设计。我的主要收获是Claude Code 的壁垒不是某一个 prompt而是一整套工程闭环包括 agent loop、工具路由、权限门、上下文压缩、CLAUDE.md 项目记忆、subagents、hooks、MCP、任务状态和失败恢复。它本质上是在把 LLM 从 chat completion 包装成一个能在代码环境里长期行动的执行系统。这个回答比“我看了源码里面有 xxx 文件”更成熟。你提到的 learn-claude-code 仓库值得看而且现在就该看你给的仓库shareAI-lab/learn-claude-code我看了一下。它的定位很明确不是教你训练模型而是教你造 Claude Code-like agent harness。仓库 README 直接强调 “Agency 来自模型Agent 产品 模型 Harness”并把课程拆成 agent loop、工具使用、todo、subagent、skills、context compaction、permissions、hooks、memory、system prompt、任务系统、MCP 等章节。(GitHub)这个仓库很适合你当前阶段但我提醒你两点第一它的开头有很强的观点输出甚至有点宣言式。你不要被“哲学语言”带跑。你要把它当成Claude Code harness pattern 练习册不是当论文。第二不要从头到尾泛读。你要带着问题读一个 coding agent 为什么需要 TodoWrite 为什么需要 subagent而不是让主 agent 一直干 为什么需要 skills而不是把所有说明塞进 system prompt 为什么 memory 不能什么都存 为什么权限系统是 agent harness 的核心而不是附属功能 为什么 context compaction 是长期任务的生命线如果你能回答这些问题你面试 agent 岗位就有“粮食”了。我给你的下一步路线两条线并行但主次分明主线Claude Code-style harness真刀真枪做你接下来 2 周主线不是读报告而是自己手搓一个最小 coding agent。目标不是做出 Claude Code而是做出一个你能在面试中讲清楚的系统User task ↓ Agent loop ↓ Plan / Todo ↓ Tool selection ↓ Permission gate ↓ Execute tool ↓ Observation ↓ Update context / memory / todo ↓ Continue or stop这才是你现在最缺的“实物感”。你要按这个顺序学learn-claude-code顺序模块你要真正理解的问题1s01 Agent 循环什么叫 observation-action loop2s02 工具使用工具 schema、调用、结果回灌怎么设计3s03 Todo 写入为什么计划要显式化4s06 上下文压缩长任务为什么一定会 context 崩坏5s07 权限系统为什么 agent 的动作必须过 permission gate6s04 子代理为什么要隔离上下文7s05 Skills为什么知识要按需展开而不是全塞 prompt8s09 Memory什么东西值得跨会话记住9s08 Hooks如何让系统扩展而不是污染主循环10s19 MCP外部工具生态怎么接进统一控制面这个站点自己的课程页也正好按类似路径拆成核心闭环、系统加固、任务运行时、多 agent 平台四层。(learn.shareai.run)副线GLM-4.5 速读不精读GLM-4.5 你可以读但只读三部分Abstract / Introduction看它如何定义 Agentic Reasoning Coding。Post-training / RL / agent data和 Kimi K2 做对比。Evaluation看 TAU-Bench、SWE-bench、agentic benchmarks 怎么评。不要读架构细节超过半天。你现在不需要再沉迷“多少层、多少头、多少专家”。那些是模型组面试的粮食不是 agent harness 岗位的主菜。你应该建立的新知识地图你之前的地图是LLM 架构 预训练 SFT RLHF / RLVR 推理模型 benchmark现在要扩展成模型能力 ↓ 工具协议 ↓ agent loop ↓ 上下文管理 ↓ 任务状态 ↓ 权限与安全 ↓ 环境交互 ↓ 执行反馈 ↓ 评估与改进这张图里模型只是一个节点。不是不重要而是你已经在模型节点上积累够多了。你现在要补的是模型周围那一圈“让它能干活”的东西。你要读的 agent 资料不是“词汇集合文章”我给你分成四类。你只选一两个路灯就行。路灯 1Claude Code 官方文档用途建立产品真实边界。读Claude Code OverviewQuickstartTools / permissionsSubagentsHooksMemory / CLAUDE.mdMCPClaude Code 官方文档说它可以读取代码库、编辑文件、运行命令并可在 terminal、IDE、desktop、web、JetBrains 等界面使用。(Claude) 这不是为了学“怎么用工具”而是为了看 Anthropic 怎么把一个 coding agent 产品化。你读官方文档时只问一个问题这个功能解决了 agent loop 里的哪个具体失败模式比如功能解决的失败模式CLAUDE.md项目规则反复丢失Todo长任务目标漂移Subagents主上下文污染、任务专业化不足Hooks工作流扩展不能全写死进主循环PermissionsLLM 意图不能直接变成危险动作MCP工具生态不能靠硬编码无限扩展路灯 2learn-claude-code用途把文档变成可运行 mental model。这个仓库最适合你现在的状态。它的课程页明确把 19 个章节拆成 agent loop、工具、todo、subagent、skills、context compaction、permissions、hooks、memory、task system、MCP 等。(learn.shareai.run)你不要只看。你要每看一章做一个小实验。例如看到 s02 工具使用你就写一个最小工具路由器available tools: - read_file - grep - list_dir - run_shell - edit_file agent decides: - tool name - arguments - reason system executes: - permission check - sandbox - observation returned看到 s06 context compaction你就故意让 agent 做一个长任务然后观察它如何忘记目标再实现压缩摘要。看到 s07 permissions你就做 allowlist / denylist允许ls, cat, grep, python test.py 需要确认rm, git push, curl, pip install 禁止读取 ~/.ssh, 删除项目根目录, 外发 secret这比你看十篇“AI Agent 未来已来”有用 100 倍。路灯 3Kimi K2 的 agent 部分回读你觉得 Kimi K2 没收获是因为你按“模型报告”的读法读它。现在换一种读法把它当成agent training 与 harness 的桥。重点回读四处3.1.1 Agentic Data Synthesis工具、agent、task、trajectory 怎么合成。3.2 RLverifiable rewards gym 和 self-critique reward。3.3.4 Agentic Rollout长 horizon、多轮环境交互、partial rollout。Appendix B Tool Calling Template工具声明、工具调用、工具结果的 token 协议。这部分和 Claude Code harness 可以直接对上Kimi K2 报告Claude Code harnesstool spec generation工具 schema / MCPtrajectory generationagent loop 日志tool simulatorsandbox / fake environmentverifiable rewardtest / compile / unit testconstrained decodingtool call parser / enforceragentic rollout多步执行任务你之前觉得“不过如此”是因为你还没有把这些东西实现一遍。实现以后你会发现这些东西每一个都能出 bug每一个都是工程壁垒。路灯 4agent benchmark不要只看分数要看任务定义你现在要读 benchmark 的任务形式而不是排行榜Benchmark学什么SWE-bench Verifiedcoding agent 如何从 issue 到 patchTerminal-Benchagent 如何在终端环境完成任务τ-bench / τ2-bench多轮工具调用与用户模拟ACEBenchAPI grounding、tool learning、multi-turn tool usePaperBench长任务、研究复现、复杂执行链Kimi K2 报告的 evaluation 部分已经把这些 benchmark 串在一起了尤其是 SWE-bench、TerminalBench、τ2-Bench、ACEBench。 你后面看模型报告时不要只看“谁分高”要看“这些 benchmark 迫使 agent 具备什么能力”。你接下来 14 天的具体安排第 1–2 天建立最小 agent loop目标写出一个最小 coding agent不要复杂。功能输入任务 模型生成下一步动作 执行工具 把 observation 回灌给模型 循环直到 done你只需要 4 个工具list_dir read_file grep run_shell你要能解释为什么 agent 不是一次性回答而是 observation-action loop第 3–4 天加入 edit 和测试闭环新增edit_file run_tests任务示例给一个有 bug 的小 Python 项目让 agent 找 bug、改代码、跑测试。你要能解释为什么 coding agent 比普通 chat coding 强因为它能执行、观察、修正而不是只生成文本。第 5 天加入 Todo实现一个可见 todo list。要求 agent 每次长任务前写1. Inspect project 2. Locate failing test 3. Understand root cause 4. Edit file 5. Run tests 6. Summarize你要观察没有 todo 的 agent 更容易漂移。第 6–7 天加入权限系统实现safe commands: ls, cat, grep, pytest confirm commands: rm, pip install, git commit deny commands: read ~/.ssh, curl secret, rm -rf你要能面试回答LLM 的 tool call 只是意图不是动作。harness 的责任是把意图转成受控动作。这是 agent 岗最重要的一句话。第 8–9 天加入 context compaction制造一个长任务让上下文变长然后做压缩保留 - 用户目标 - 已完成步骤 - 当前假设 - 修改过的文件 - 测试结果 - 下一步 丢弃 - 冗余日志 - 失败尝试细节 - 重复文件内容你要能解释压缩不是总结聊天记录而是保留继续执行所需的工作记忆。第 10–11 天加入 subagent做两个子代理code-reviewer: 只读代码找 bug不改文件 test-runner: 运行测试分析失败不改业务代码主 agent 负责分派和整合。你要能解释subagent 的价值不是“多一个 prompt”而是上下文隔离、角色专精、工具权限隔离。第 12 天加入 skills做一个 skillpython-debugging-skill - 如何读 traceback - 如何定位 failing test - 常见 pytest 命令 - 修改代码前先复现要求不是每次都塞进 prompt而是任务相关时才加载。你要能解释skills 是按需展开的专业知识包解决上下文预算和专业化问题。第 13 天加入 memory只存跨会话有用的信息项目使用 pytest 用户偏好小步提交 这个 repo 的测试入口是 make test 不要存临时错误日志你要能解释memory 不是垃圾桶。只有未来无法从当前上下文可靠推导的信息才值得存。第 14 天写一篇面试 memo题目Claude Code-style Agent Harness 的核心设计从模型能力到可控行动结构1. Agent loop 是什么 2. Tool use 为什么需要 schema / parser / observation 3. Todo 如何防止目标漂移 4. Context compaction 如何延长任务 horizon 5. Permission gate 如何保证安全 6. Subagent / skill / memory 分别解决什么问题 7. 和 Kimi K2 agentic training 的关系 8. 我自己实现时遇到的失败案例这篇 memo 就是你的面试弹药库。面试官问你的时候你应该这样讲问什么是 harness agent你答我理解 harness 不是 agency 本身而是把模型放进环境中让它能感知、行动、验证和恢复的一套运行时。模型负责生成意图harness 负责提供工具、上下文、权限、安全边界、状态管理和执行反馈。Claude Code 这类系统的关键不是单次代码生成而是围绕代码库形成 observation-action loop。问Claude Code 泄露你有什么收获你答我关注的不是源码细节而是架构模式。公开分析显示 Claude Code 的客户端 harness 很大说明真正的 coding agent 产品不是一个 prompt而是一套复杂运行时。我的收获主要有五点第一工具调用必须有统一协议第二权限系统是核心不是附属第三CLAUDE.md、memory、skills 解决的是上下文和长期偏好问题第四subagents 解决上下文隔离和专业化第五hooks / MCP 让系统可扩展而不是把所有逻辑硬编码在主循环里。问skills 和 memory 有什么区别你答Skill 是可发现、可按需加载的能力包解决“某类任务怎么做”的问题memory 是跨会话持久状态解决“这个用户/项目长期有什么事实或偏好”的问题。Skill 更像手册memory 更像经验。二者都不能无脑塞上下文否则会污染模型决策。问agent 和 workflow 有什么区别你答Workflow 是人写死流程模型只填槽agent 是模型根据 observation 选择下一步动作。两者可以结合但判断标准是下一步动作是由固定图决定还是由模型根据环境反馈决定。你的哲学困境我给一个解法你说不知道新东西就无法学习它知道新东西又必须通过学习得到。这个悖论在研究里很常见。解决方法不是“多看新闻”而是建立边界探针。所谓边界探针就是一个小实验、小复现、小 benchmark。它能告诉你这个概念到底有没有肉。对 agent 来说你的边界探针就是我能不能写一个 agent loop 我能不能让它改代码并跑测试 我能不能让它失败后恢复 我能不能让它管理上下文 我能不能让它安全地调用工具 我能不能解释每个模块解决了哪个失败模式只要你开始做这些迷雾会立刻变薄。因为 agent 这个领域的“深沉的东西”不在新闻里也不完全在论文里而在一次工具调用失败 一次权限误放行 一次上下文污染 一次测试没跑却自称成功 一次 memory 存错导致长期行为偏移 一次 subagent 回答漂亮但不可验证这些才是 agent 的真实知识。最终建议你现在选这两盏路灯主灯learn-claude-code 自己实现 mini Claude Code harness副灯Kimi K2 agent 部分回读 GLM-4.5 agent/RL/eval 速读顺序是先做 harness 再回看 Kimi K2 再速读 GLM-4.5 再读 benchmark 再写面试 memo不要再用“大模型技术报告”的学习方式学习 agent。大模型报告适合吸收高密度事实agent harness 适合通过失败建立理解。你现在缺的不是更多名词而是一个你亲手搭过、亲眼看它失败、亲手修过的 agent。你这个担心是对的只看一个仓库 自己实践确实可能闭门造车。我替你重新扫了一圈现在可以把 agent 学习资源分成 5 类。结论先说最适合你当前阶段的不是“泛 agent 入门课”而是Claude Code / coding agent 逆向分析 Anthropic/OpenAI/Google 的官方 agent 工程资料 一个可落地框架课程。你已经有 Kimi K2 和learn-claude-code两盏灯。我要再给你加 6 盏灯但会区分主灯、副灯、观摩灯避免你又掉进“收藏一堆资源但没有深入”的坑。先说大判断别人是怎么学 agent 的agent 领域和大模型不一样。大模型有清晰技术报告模型规模、数据量、架构、训练阶段、benchmark。agent 没有这么单一的“总报告”因为它更像系统工程 产品工程 eval 工程。其他人通常从这几类东西学1. 厂商工程指南Anthropic / OpenAI / Google / LangChain 2. 真实产品文档Claude Code / Codex / Devin / Cursor / Copilot 3. 逆向分析Claude Code leak / Dive into Claude Code 4. 框架实战LangGraph / OpenAI Agents SDK / AutoGen / CrewAI 5. benchmark / evalSWE-bench、Terminal-Bench、tau-bench、ACEBenchKimi K2 报告其实已经暴露了这个趋势它不是只讲模型还讲工具调用模板、constrained decoding、agentic data synthesis、真实/模拟环境、sandbox、agentic rollout 和 RL infrastructure。换句话说agent 的知识不只在模型报告里而是在“模型如何进入环境”的那一整套系统里。我给你的资源地图第一层必须读解决“agent 到底怎么构建”1. Anthropic《Building Effective Agents》这是我认为你现在最该读的厂商文章。它不是新闻也不是营销文。Anthropic 明确区分 workflow 和 agent并从 augmented LLM 开始逐步讲到 prompt chaining、routing、parallelization、orchestrator-workers、evaluator-optimizer、autonomous agents。它的价值是帮你建立“什么时候该用 agent什么时候不该用”的判断力。(Anthropic)你读它时不要当教程读要当设计准则读。重点回答什么时候 workflow 比 agent 好 什么时候让模型自主规划 tool、retrieval、memory 到底是增强 LLM还是 agent 本体 agent 的复杂度应该如何渐进增加我建议你把它作为第一篇精读材料优先级高于 GLM-4.5。2. Anthropic Academy / Claude Code / MCP 官方课程Anthropic 现在有官方学习资源覆盖 AI Fluency、API development、MCP 和 Claude Code并且有证书课程。这个值得看因为它直接来自 Claude Code / MCP 的源头而不是第三方转述。(Anthropic)你不要泛学全部重点看Claude Code Model Context Protocol API tool use Claude with tools / agents这条线解决的是Anthropic 自己希望开发者如何理解 Claude Code 和 MCP。3. OpenAI Agents SDK 官方文档 quickstartOpenAI Agents SDK 官方文档现在把 agent 的核心部件拆得比较清楚agent definition、tools、handoffs、guardrails、tracing、running agents、conversation state strategy。官方 quickstart 还特别提示你第一次跑通后要去 Traces dashboard 看 model calls、tool calls、handoffs 和 guardrails。(OpenAI开发者)这个对你很有价值因为它给你一个和 Claude Code 不同的抽象Claude Code 视角OpenAI Agents SDK 视角coding agent 产品agent runtime / orchestration SDK工具、权限、上下文、项目记忆tools、handoffs、guardrails、traces面向终端和代码库面向通用 agent app你应该用它来校准哪些是 Claude Code 特有哪些是 agent 通用结构。第二层必须看解决“Claude Code / harness 到底有什么真东西”4. Dive into Claude Code这是你要补的最强“真刀真枪”资料之一。这个项目和论文声称对 Claude Code v2.1.88 做了源代码级架构分析覆盖约 1,900 个 TypeScript 文件、约 512K 行代码并总结出 agent 系统的设计空间。它强调核心 agent loop 很简单就是 model call → tool execution → repeat真正复杂的是 loop 周围的系统包括 permission system、context compaction、MCP、plugins、skills、hooks、subagent delegation、session storage 等。(GitHub)这正好补你现在的困境你看 Kimi K2 感觉不充实因为它讲的是“模型训练如何支持 agent”而 Dive into Claude Code 讲的是“agent 产品如何把模型能力转成可控执行”。你读它时重点看这几个模块1. agent loop 2. permission modes / safety classifier 3. context compaction pipeline 4. skills / hooks / MCP / plugins 5. subagent delegation 6. session storage 7. OpenClaw 对比这是你面试 “Claude Code 泄露你怎么看” 的核心弹药。5. Claude Code 官方文档这不是“使用手册”那么简单。它是一个产品化 agent 的功能地图。Claude Code 官方文档把它描述为可以读取代码库、编辑文件、运行命令并集成到 terminal、IDE、desktop、web 等环境里的 agentic coding system。(Claude)你要按“失败模式”读文档功能它解决的 agent 失败模式CLAUDE.md / memory项目约束和偏好丢失permissions模型意图直接变危险动作hooks用户工作流无法插入 agent loopsubagents主上下文污染、任务专业化不足skills专业知识不能按需加载MCP工具生态硬编码、难扩展你不是要成为 Claude Code 熟练用户而是要知道它为什么长成这样。第三层课程型资源解决“我怎么系统补课”6. Stanford CS329A: Self-Improving AI Agents这是偏研究生视角的课。课程说明是研究能够通过和自身及环境交互而持续改进的 AI agents。(cs329a.stanford.edu)它适合你因为你不是只想会用 LangChain而是想理解更高层问题self-improvement interaction with environment experience agent learning long-horizon behavior这门课我建议你放在“研究主线”不是马上刷完。你可以先看 syllabus把 lecture title 抄下来建立 agent research map。7. DeepLearning.AI: AI Agents in LangGraph这是很适合工程入门的短课。它明确说会先从 Python LLM 从零构建 agent然后用 LangGraph 重建学习组件如何组合成 flow-based applications。(DeepLearning.AI - Learning Platform)这门课适合你做“从零到框架”的过渡。你现在不应该一上来就完全依赖框架但你也不能永远手搓。正确路线是先手搓 mini agent 再学 LangGraph 再回头理解 Claude Code 为什么不只是 LangGraph8. LangGraph / LangChain AcademyLangGraph 官方把自己定位为 reliable agents 的 orchestration framework强调 state、memory、human-in-the-loop 等能力。官方页面也提供 LangChain Academy 的免费基础课程。(LangChain)LangGraph 的价值是它不是教你“agent 很酷”而是教你stateful graph durable execution。这正好对应 agent 的真实问题状态怎么保存 失败后怎么恢复 human approval 怎么插入 多个节点如何协作 长任务如何 checkpoint你学 LangGraph 时不要沉迷 API要抽象成agent 状态机 LLM 节点 tool 节点 human gate persistence。9. Google 5-Day AI Agents Intensive / ADK CodelabGoogle 有两个值得看一个是 Kaggle 上的 5-Day AI Agents Intensive覆盖 models、tools、orchestration、memory、evaluation另一个是 Google Agent Development Kit 的 codelab教你搭建基础 conversational agent。(Kaggle)这条线的价值是补齐 Google 生态的 agent 抽象。它不一定比 Anthropic/OpenAI 更适合你但适合作为横向比较Anthropic: Claude Code / MCP / effective agents OpenAI: Agents SDK / Codex / tracing / guardrails Google: ADK / Gemini / orchestration / codelabs LangChain: LangGraph / stateful execution第四层框架与仓库解决“我该拿什么做实验”10. OpenAI Agents SDK repoOpenAI 的openai-agents-python仓库现在是一个轻量但完整的 multi-agent workflow 框架核心概念包括 agents、tools、guardrails、handoffs也有 sandbox agents 和 examples。(GitHub)你可以用它做一个实验一个主 agent 一个 code-reviewer handoff 一个 test-runner handoff 一个 permission guardrail 一个 trace dashboard目标不是学 SDK而是体验handoff、guardrail、trace 这些抽象为什么会出现。11. LangGraph repoLangGraph 官方仓库强调 long-running、stateful agents并提到 Deep Agents 这类更高层包可以计划、使用 subagents、利用文件系统处理复杂任务。(GitHub)LangGraph 适合做你的第二个实现版本v1手搓 while-loop coding agent v2用 LangGraph 改造成状态图 v3加入 checkpoint / human approval / memory这样你不会被框架牵着鼻子走。12. Microsoft AutoGen / Agent FrameworkAutoGen 现在已经演进到 Microsoft Agent Framework 1.0定位是 enterprise-grade multi-agent orchestration支持多模型、多 agent、A2A 和 MCP。(GitHub)我对你的建议是先不深学 AutoGen。你可以把它放在“多 agent 系统”的参考项。因为你当前最缺的是 coding harness 的工程闭环不是多 agent 聊天室。13. CrewAICrewAI 文档强调 crews、flows、guardrails、memory、knowledge、observability它的 GitHub 也开始提供 official CrewAI Skills让 Claude Code、Codex、Cursor、Windsurf 这类 coding agents 自动学习 CrewAI 最佳实践。(GitHub)CrewAI 适合你观察一个现象agent 框架自己也开始给 coding agents 写 skills。这说明 skills 正在变成新的“机器可读工程手册”。但 CrewAI 不是你当前主线。它更偏 role-playing agents / business automation。你先知道它的位置即可。第五层benchmark / eval解决“agent 到底怎么证明自己有用”你不能只做 toy agent。agent 岗面试会越来越看重 eval。Kimi K2 报告的 evaluation 已经把 SWE-bench Verified、SWE-bench Multilingual、TerminalBench、τ2-Bench、ACEBench 等串起来了并区分了 agentless single patch 和 agentic coding with bash/editor tools。你要重点理解这些 benchmarkBenchmark你学到什么SWE-bench Verified从 GitHub issue 到 patchcoding agent 的核心战场Terminal-Bench终端环境里的多步执行能力τ-bench / τ2-Bench多轮用户-工具-环境交互ACEBenchAPI-grounded tool use 和复杂工具调用PaperBench长任务、研究复现、复杂任务链我建议你不要马上读所有 benchmark 论文。先做一个自己的 mini SWE-bench准备 5 个小 bug 每个 bug 有 issue 描述 有 failing test agent 需要读代码、定位、修改、跑测试 记录成功率、token、工具调用次数、失败原因这比看排行榜更有用。我给你的最终推荐排序你接下来不要看 20 个资源。按这个顺序走。第 0 步先读 Anthropic《Building Effective Agents》耗时半天。目的建立 workflow vs agent 的判断力。产出一页笔记标题是什么时候该用 workflow什么时候该用 agent第 1 步读 Dive into Claude Code耗时2–3 天。目的理解 Claude Code-style harness 的真实结构。产出一张架构图main loop tools permissions context compaction skills hooks MCP subagents memory/session这一步比继续读 GLM-4.5 更重要。第 2 步做你自己的 mini Claude Code耗时1–2 周。目的用失败建立理解。产出一个 repo 一篇面试 memo。模块顺序agent loop read / grep / shell / edit tools todo permission gate context compaction subagent skill memory trace / eval第 3 步选一个框架重写我建议二选一选 LangGraph如果你想理解长期状态和可恢复执行LangGraph 更适合学习 state、memory、human-in-the-loop、durable execution。(LangChain)选 OpenAI Agents SDK如果你想理解 tools、handoffs、guardrails、tracesOpenAI Agents SDK 更适合做清晰的 agent runtime 实验。(OpenAI开发者)不要两个都深学。你现在只能选一个。我的建议先 LangGraph后 OpenAI Agents SDK。因为 LangGraph 会逼你理解状态机而不是只把 agent 当 API wrapper。第 4 步补 Stanford CS329A耗时长期。目的从工程 agent 走向 research agent。产出研究问题列表。你可以把课程里的每个主题变成一个问题agent 如何从环境反馈中学习 长期记忆如何评估 self-improvement 会不会 reward hack agent eval 如何避免 benchmark overfitting 多 agent 协作到底提升了什么我不建议你现在优先看的资源不是说它们没用而是现在不适合你。资源为什么不优先Udemy 泛 Claude Code 课程多数偏工具使用不一定够深Coursera 泛 autonomous agents容易框架大杂烩CrewAI 深学容易走向 role-playing agents不是 coding harness 主线AutoGen 深学多 agent 抽象重可能分散你GLM-4.5 精读会继续给你模型训练视角而不是 harness 手感新闻/评论文章信息密度太低容易鬼打墙GLM-4.5 可以保留为“周末速读”。你的主线应该切到 agent engineering。你的“路灯清单”我把它压缩成最值得点亮的 6 盏路灯类型你从中学什么优先级Anthropic Building Effective Agents厂商设计指南workflow vs agent、agent 模式SDive into Claude Code逆向/架构分析Claude Code harness 真实结构SClaude Code 官方文档产品文档memory、skills、hooks、permissions、MCPSLangGraph / DeepLearning.AI框架课程stateful agent、graph、memory、HITLAOpenAI Agents SDK官方 SDKtools、handoffs、guardrails、tracingAStanford CS329A研究课程self-improving agents、agent research mapA你已经有的learn-claude-code仍然保留但它现在不再是唯一主灯而是和Dive into Claude Code搭配使用。我给你的导师式路线你现在不是缺资源而是缺“资源编排”。我建议未来 3 周这样做第 1–2 天 读 Anthropic Building Effective Agents 写 workflow vs agent 判断笔记 第 3–5 天 读 Dive into Claude Code 画 Claude Code harness 架构图 第 6–12 天 手搓 mini Claude Code 至少支持 read/grep/edit/shell/test/todo/permission 第 13–16 天 加入 context compaction / skill / memory 记录失败案例 第 17–20 天 用 LangGraph 重写核心 loop 理解 state、checkpoint、human-in-the-loop 第 21 天 写面试 memo “我如何理解 Claude Code-style coding agent harness”这条路走完你不会再觉得 agent 是新闻词汇集合。你会知道每个词背后的失败模式。最后我给你一个判断标准一个 agent 资料是否值得读不看它有没有讲“自主、规划、记忆”而看它有没有回答状态怎么保存工具怎么约束失败怎么恢复上下文怎么压缩任务怎么评估权限怎么设计能回答这些的是深资料。只喊 autonomous、multi-agent、AGI、workflow revolution 的先放一边。这里是引用读了kimi k2感觉没什么太大收获。无非是 muonclip、强化学习阶段构造agentic data来为后续agent打基础。接下来读哪一篇我有点犹豫。我感觉k2没有带给我充实的感觉。近期面试经常被面试官问harness agent claude code源代码泄露你看了吗 有什么收获 我现在想到的是是不是可以来点真刀真枪的agent的东西学一下目前面临的困境你读了之后从更高的角度帮我做决策你现在是我的导师。 1 继续读GLM-4.5: Agentic, Reasoning, and Coding 继续了解主流大模型最新进展也挺好 或许能学新东西 2 最近在面试agent岗位 遇到很多agent问题 感觉有点无米之炊 但是这玩意的技术报告到底是否存在我没什么底至少大模型技术报告在我认知里面是如数家珍的。agent这东西现在脑海里都是新闻概念龙虾 、 harness、Claude code 真要说学习我还有点看不上他们我觉得他们就是大模型加上围绕的环境的系统工程罢了。或许我应该直接开始实践有可能边实践我就知道他们的skills memory的可贵之处了。这是在我脑海里面已经知道的仓库 https://github.com/shareAI-lab/learn-claude-code/blob/main/README-zh.md 你帮我看看怎么样 3 哲学思考我深刻感受到自己处于知识边界。学习新东西是个矛盾。你不知道新东西你就无法学习它你知道新东西是必须通过学习得到的。如此产生悖论。我一直在大模型 agent门口打转没有深入的重要原因就是生活中会见到大模型相关新闻评论文章一百次但是真正的深沉的东西不语静静的等着我去发掘。比如说看技术报告很爽的一点在于信息密度高大口大口的吮吸大模型的知识。多少层多少头参数量多少训练数据量多少这些几分钟学到的比看一百篇新闻还有用。 我希望你可以帮助我拓展知识边界找到学习agent的最好方法。我前方是重重迷雾我需要你帮我清晰展开这附近所有的可以学习的资源帮助我一步一步解开迷雾我选择一两个你为我点亮的知识路灯我就能够很好的走下去。如果没有实质性的学习资料辅助我可能只是在鬼打墙看agent词汇集合文章和大模型浅浅交流实则没什么用处