
1. 上线后第三天,我们的 AI Agent 开始“胡言乱语”了凌晨两点十七分,告警群弹出第 7 条 Slack 消息:[prod-agent-v2] health check failed: TypeError: Cannot read property 'id' of undefined。这不是一次偶发的 500 错误。它发生在我们刚把 Claude Code 驱动的订单路由 Agent 推上生产环境的第三天——而这个报错,在本地开发、CI 测试、预发环境里,从未出现过。我拉出日志,发现一个更诡异的现象:同一段被 Claude Code 生成的parseOrderPayload()函数,在不同请求中返回了两种结构完全不同的对象。一次是{ orderId: 'xxx', items: [...] },另一次却是{ payload: { orderId: 'xxx', items: [...] } }。函数签名没变,输入数据格式也没变,但输出却像被随机打乱了。这不是 bug,是上下文污染的典型症状。我们以为把 prompt 写清楚、把 schema 定死、把测试用例跑满,就能让 AI 代码稳如磐石。但上线不是终点,而是上下文开始崩塌的起点——模型在真实流量下持续“遗忘”,在长周期迭代中悄然“偏移”,在多模块耦合时反复“混淆”。这背后不是模型能力问题,而是工程化断层:我们用 IDE 插件级的配置方式,去承载一个需要服务级治理的 AI 编程流水线。本文不讲如何安装 Claude Code(vscode-claude-code插件