
去年如果一家公司说“我们 80% 的代码是 AI 写的。”你大概会点点头心里想行PPT 先收一下投资人已经在路上了。但今天再听到这句话反应变了才 80%为什么还有 20% 的代码值得人去写2026 年 2 月Anthropic CPO Mike Krieger 说「Claude 是 Claude 写的Claude Code 也是 Claude 写的我们大部分产品 100% 都是 AI 写的代码。」我不太相信有多少业务的复杂度能超过 Anthropic所以我用 30 天给自己交了一份答案深刻理解那 20% 还在让人写的代码不是 AI 写不了是没有能力让 AI 写。目录一、30 天关键事实三分钟看完二、为什么独立交付在 2026 年重新成立三、栈决策清单第一性原理 多年踩坑反向工程四、流程纪律让 AI 不返工的四件铁器五、那些没说出来的代价30 天里我踩过的 4 个坑六、写在最后深度判断力 30 天 新型 CTO 杠杆一、30 天关键事实三分钟看完37 个活跃日5 个关键节点每个节点背后是真实的工程决策和踩坑代价。数字先摆出来下面所有判断都建立在这上面。维度数值起点2026-03-16首次 commitInitial commit: AIFlowLearn 平台 MVP 文档30 天节点2026-04-15GitHub 满 30 天发布内测2026-04-17首 30 天 commits880 个 / 27 个活跃日截至 2026-04-25 总 commits1,540 个 / 37 个活跃日单日峰值137 commits2026-04-15多为 superpowers 7 阶段流水线下的小步独立 commit后端代码NestJS 11 Prisma 5476 个 .ts 文件 / 55,884 行前端代码Next.js 14 React 18207 个文件 / 38,054 行验收测试harness100 个 spec / 17,201 行总规模~1000 源文件 / ~12.1 万行 LOCMemory 沉淀56 张 sticky knowledge cardsLLM 年成本基线¥202/年99% 可用性GLM DeepSeek fallback已上线核心能力注册登录GitHub OAuth 手机号、Stripe 支付、技能包学习、AI 教练流式对话、概念图谱、终端沙箱、CTO 雷达我列这张表只想说一件事这不是 demo这是真实产品。带支付、带 OAuth、带验收测试、能跑生产、能算账全都不少。下面讲的所有工程决策都跑在这个生产环境上。二、为什么独立交付在 2026 年重新成立这个飞轮说明了一件事深度工程积累是放大器的乘数AI 把判断力折算成了生产速度。我做了多年的技术管理。我亲手带过百人团队。我清楚一个有支付、有沙箱、有 OAuth、有 i18n、有 RAG 的 AI 学习产品正常组织里要多少人——产品 1、前端 1、后端 2、QA 1、运维 1至少 5 个人跑 2 个月才到内测。我用了 30 天1 个人跑到内测。5 人 × 2 个月 10 人月1 人 × 1 个月 1 人月。10 倍战斗力不是比喻是算术。这不是因为我超人是因为世界变了。DORA 2025 报告AI 在软件工程中的成功较少取决于工具的复杂性而更多取决于周围组织系统的强度。AI 是组织能力的放大器不是替代品。 ——Google Cloud DORA 研究团队dora.dev/research/2025把放大器这三个字读三遍。它的隐含命题是如果一个人本身就是组织能力的稀缺极值AI 就把这个人放大成一支舰队。这正是 深度工程积累 的位置。我再把行业数据摆一下DORA 2025约 90% 的开发者在工作中使用某种形式的 AI 辅助。(infoq.com/news/2026/03/ai-dora-report)Shopify (BVP)通过建立 LLM 代理网关标准化底层基础设施而非工具实现了约 20% 的生产力提升。(bvp.com/atlas/inside-shopifys-ai-first-engineering-playbook)一人独角兽Midjourney 以约 11 名全职员工创造了超过 2 亿美元的年营收每位员工约 1800 万美元Pieter Levels 单人运营着 ARR 达 300 万美元的产品组合2026 年初新创企业中36.3% 为单人创办。(nxcode.io)AI 原生小团队最有效的 AI 原生工程团队规模通常很小3-4 人。(eng-leadership.com)我把这四句话翻译成 CTO 的人话在 AI 原生开发模式下判断力是新的稀缺品编码不是。 组织过去用人海堆判断力现在 1 个人就能堆得过去 7 个人——前提是这 1 个人本身有过去 7 个人那么多判断力。我做了 深度工程积累这就是我的过去 7 个人。三、栈决策清单第一性原理 多年踩坑反向工程五层架构每个选型不是哪个流行选哪个是我踩过哪些坑所以这次必须选什么。我把 30 天里所有重要的栈决策摊出来。每一条不是哪个流行就选哪个而是我踩过哪些坑、所以这次必须选什么。1. 后端NestJS 11不是 Express不是 Fastify决策NestJS 11.0.1。理由AI 写代码最容易出格的就是模块边界——文件乱放、循环依赖、service 越权调 controller。NestJS 的依赖注入 模块树是强约束。我在CLAUDE.md里写一句按 NestJS 模块边界放代码Claude Code 就不会再乱建 utils。多年工程实践踩过的坑Express 项目到了 50 个文件以上没有强约束就开始结构腐烂。AI 加速这种腐烂的速度比人快 10 倍。结果55,884 行后端代码现在还能让任何一个 Claude Code 会话5 分钟内找到任何模块的位置。2. 前端Next.js 14 App Router决策Next.js 14.2.35 React 18。理由App Router 的目录结构本身就是一份AI 友好的契约——app/[locale]/(main)/learn/[id]/page.tsx这种路径AI 一眼就知道是什么页面、什么参数、什么 layout。next-intl 让国际化从一开始就是一等公民省掉了未来重构的路径。多年工程实践踩过的坑Pages Router 时代的_app.tsx是状态地狱AI 一改全栈崩。App Router 把全局状态和页面状态分开了。结果38,054 行前端代码AI 改任何一个页面只读它自己那一棵子树。3. 数据Prisma 5 migrate dev是铁律决策Prisma 5.22.0。理由Schema-first 让 AI 不会编字段名——schema 在哪类型就在哪TypeScript 编译期就把错误兜住。migrate dev是唯一允许的模式变更命令。多年工程实践踩过的坑项目越大裸 SQL 改表造的事故越严重。铁律写进 CLAUDE.md 第一节❌ npx prisma db push会重建表丢失数据 ❌ npx prisma db push --force-reset清空数据库 ❌ npx prisma migrate reset重置所有迁移 ✅ 开发npx prisma migrate dev--name描述✅ 生产npx prisma migrate deploy为什么这么强硬因为我已经踩过一次见第五章代价是生产数据全丢。4. 沙箱isolated-vm dockerode 阿里云 ECI决策三层隔离。理由AI 学习产品的本质是让用户跑代码。让用户跑代码的本质是给一个不可信代码一个可控的执行环境。第一层isolated-vmNode 同进程的 V8 隔离跑 JS 表达式级别的判题脚本毫秒级。第二层dockerode起一次性容器跑 Python/Bash 这种需要文件系统的实战题。第三层 阿里云 ECIElastic Container Instance跑课程 RAG 索引这类长任务 大内存工作负载按秒计费。多年工程实践踩过的坑自建 K8s 给学习产品做沙箱是纯纯的工程债。ECI 这种 serverless 容器按秒计费挂掉也只挂自己。警惕ECI 的内存单位是GiB 不是 MB。我曾经把512当成 MB 写进 SDK启动了一个512 GiB / 64 vCPU的巨型实例账单当场爆炸详见第五章。5. LLM 路由GLM DeepSeek fallback年 ¥202决策自研 PromptRunner 多模型分层。理由学习产品的 LLM 调用峰值在AI 教练流式对话和内容生成两个点上年估算 14M input 7M output tokens。实测对照价格表模型Input ($/M)Output ($/M)中国区可用GLM-4.7智谱直连付费¥10 (~$1.4)¥15 (~$2.1)✅ 必须DeepSeek-ChatOpenRouter$0.14$0.28✅ 中国原生Gemini 2.5 Flash$0.075$0.30⚠️ 部分时段GPT-4o-mini$0.15$0.60❌ 中国 blockClaude Haiku 4.5$0.80$4.00⚠️ 不稳定终选GLM 主路 DeepSeek fallback年成本¥202 可用性99%。关键洞察按 input 单价 DeepSeek 比 GLM 便宜约10 倍$0.14/M vs ~$1.4/Moutput 也约7–8 倍——做 fallback 不仅没增成本反而拉低了均价。深度工程判断在中国做生产产品可用性永远比省钱重要。但当便宜的 fallback 还顺带让你更可靠时没有理由不做。6. 部署Docker 阿里云 ECS nginx 备案反代决策双服务器架构。理由前端反代 备案阿里云 ECS备案节点跑 nginx唯一对外域名 aiflowlearn.net。后端应用阿里云 ECS应用节点跑 DockerAPI Web DB Redis。部署用滚动发布脚本rsync 增量同步源码 → SSH 远程滚动构建切换停机 ~20 秒。多年工程实践踩过的坑Cloudflare Tunnel 在中国是技术债不能依赖境外/境内双栈都是慢性死亡。全 ICP 备案 阿里云一条路走到底简单到不会出错。我曾经用过 Cloudflare Tunnel 海外域名aiflearn.com最后全废掉了。这种放弃了什么也算是 深度工程判断力里最重要的一类决策——知道什么时候止损。四、流程纪律让 AI 不返工的四件铁器前 4 件铁器防代码层面翻车第 5 件防方向层面翻车。技术栈选完了不算完AI 时代真正的护城河是流程纪律。我把过去 30 天里让 AI 开发不翻车的五件铁器列出来。这部分对中小团队 CTO 最有借鉴价值。铁器 1CLAUDE.md项目宪法150 行硬上限CLAUDE.md是项目根目录里的一份宪法文档每次 Claude Code 启动会自动读。核心规则精简版场景规则API 路径不含/api/前缀baseURL 已包含字段命名前后端必须一致AI 配置使用环境变量AI_API_KEY,AI_MODEL数据库迁移禁止db push/reset必须用migrate dev开发流程所有新功能和 Bug 修复必须使用 TDDChrome 测试❌ 不得pkill用户 Chrome✅ 用独立--user-data-dir自主验证开发完成后必须自行用 Chrome DevTools MCP 验证铁律CLAUDE.md不得超过 150 行。每加一条规则先删一条过时的。为什么 150 行因为再多 AI 就开始读不进去违反规则的概率上升。这个数字是我用 4 篇翻车的稿子换来的。铁器 2memory 系统56 张 sticky knowledge cardsClaude Code 自带一个memory/目录。我把它当成**“我的二号大脑”**用。每个 memory 文件是一张卡feedback_*—— 用户偏好沟通用中文、不要复盘式反馈project_*—— 项目状态启动时间、长期愿景、模型路由critical-*—— 不许再犯的事故db push、ECI 单位reference_*—— 外部资源指针开源库本地路径user_*—— 用户身份深度工程积累、作者型产品到 2026-04-25我有56 张卡。每开一个新会话Claude Code 自动加载MEMORY.md索引相关卡片随用随读。这件事的价值不在记多少在我已经踩过的坑不会再踩第二次。铁器 3harness/p0-critical验收测试 AI 不能逃避的真理之锚harness/是一个独立的 E2E 测试框架30 个 spec / 7,201 行。跑一句 P0 验收脚本就能验证注册登录链路完整支付链路 OK概念图谱加载AI 教练能流式对话终端沙箱能跑代码铁律编码后必须新增/修改对应 spec确保 P0 全绿才能提交。这是给 AI 的真理之锚——不管 Claude Code 改了什么跑一遍 P0错了就退回去。铁器 4Claude Code 三模型分层 superpowers skill开发环境Claude CodeAnthropic 官方 CLI。不是在编辑器里用补全插件是把 Claude Code 当成开发团队的核心成员派任务、留 KPI、晚上还能接着干。模型按任务分层不是哪个最强用哪个是这个场景需要什么样的推理/速度比模型定位典型场景Claude Opus 4.7复杂推理架构决策、P0 bug 根因分析、需求 spec reviewClaude Sonnet 4.6编码主力日常功能开发、重构、代码 reviewGLM 5.1内容 控成本AI 教练对话、课程内容生成、中文场景superpowers skill 核心七步把模型自由发挥切成 7 个有检查点的阶段每个新功能必须按序走/brainstorming → /writing-plans → /TDD → /verification → /review → /ship → /land-and-deploy这套流程看起来重但它解决了 AI 原生开发最大的问题——概率性翻车。模型不是不行是没有约束它就会走捷径、跳步骤、编结果。superpowers 的每个 skill 就是一道检查门。引用 OpenAI Codex 负责人的话AI 原生团队最擅长识别工作在哪里慢下来并应用 AI 来消除这些瓶颈。这意味着质疑一切规划、策略、功能/缺陷优先级、代码生成、代码审查。 ——Thibault Sottiauxeng-leadership.com我的前 4 件铁器就是把这句话落地CLAUDE.md 锁宪法、memory 锁经验、harness 锁真理、Claude Code superpowers 锁流程。铁器 5gstack 全栈评审让商业判断和工程判断同步经过对抗 review前四件铁器管的是代码不出错第五件铁器管的是做的事情本身对不对。gstack 是一套嵌在 Claude Code 里的评审体系我用了其中三个核心能力/office-hours战略问诊把真实问题搬进来——不是我要做什么功能是在 0 付费用户的阶段我是该继续打磨产品还是收窄画像押单一个 wedge“。它逼你面对最难承认的事我有 15 个注册用户没有 1 个付费这不是早期”这是需求未验证。这种诚实是商业判断的起点。/plan-ceo-review10x 校验每个策略计划进来会被评分第一轮 6/10第二轮 7/10反复改才到 8/10。它会做两件事提出你没想到的扩展方向A/B/C/D/E/F 六个提案逐个评 ACCEPT / DEFER / CONDITIONAL以及把你没注意到的商业盲点打出来——比如主页的2000 工程师 / NPS 72 / 4.8⭐全是占位数据我在做 B 端 sales 演示前第三轮地面核查才发现差点在 CTO 客户面前露底。/plan-eng-review工程审查映射所有新增代码路径、每条路径的失败模式、测试覆盖缺口。我在做数字分身功能时它发现了 2 个 P0 缺口流式接口 prompt injection 裸奔T6 Schema Hijack 已实测打穿 多席位团队隔离零基建。这两条如果进了生产B 端客户数据会互相可见。工程价值在这里这套评审不是做完了来检查是要做之前先过一遍。发现缺口的成本在规划阶段是改文档在代码阶段是改架构在生产阶段是故障修复。这三个成本比是 1 : 10 : 100。五、那些没说出来的代价30 天里我踩过的 4 个坑这 4 个坑让我明白AI 加速的不只是开发也加速了出错的速度。把教训写进 memory 卡才是真正的护城河。我说30 天交付听起来浪漫但浪漫是因为我没说背后流过的血。下面这 4 个坑都已经写进 memory永久禁飞。坑 1prisma db push那一夜生产数据全丢事故2026-04-11我用npx prisma db push同步 schema 变更。结果skill_packs表被重建所有数据丢失。为什么db push不走迁移历史它是我看到 schema 和库不一样了那就把库改成 schema 的样子——它不在乎你库里的数据。修复数据库备份脚本升级为强制每日备份。写进CLAUDE.md的 ❌ 列表见前文。memory 卡critical-prisma-db-push-warning永久驻留。新铁律数据库重建极少情况必须先备份 用户明确同意 用migrate dev。坑 2ECI 内存单位 ×1024账单爆炸事故阿里云 ECI 的memory字段单位是GiB我误以为是 MB写代码时 ×1024。结果本来要起512MB结果起了512 GiB / 64 vCPU 的巨型实例。账单当场爆炸。修复memory 卡critical-eci-memory-unit-bug永久驻留。SDK 调用前必须打印实例规格 双人审。判断升级云厂商 SDK 的单位约定是隐形地雷。读 SDK 必须看 type 注释不能凭印象。坑 3SSE 跨 chunk-boundary 缓冲前后端非对称 生产 bug事故AI 教练流式对话用 SSE。后端 chunk 跨边界切割时前端没做缓冲拼接导致部分 message 被吞。根因前后端的边界处理必须对称——后端按字符切前端就得按字符拼后端按 token 切前端就得按 token 拼。修复后端 SSE encoder 和前端 decoder 同源同协议。memory 卡feedback_sse-buffer-symmetry永久驻留。判断升级任何流式协议都有对称性义务改一边忘一边 生产 bug。坑 4thinking 模型用错地方interactive 场景慢 22 倍事故AI 教练对话场景接入了 qwen3.6-plus 的 thinking 模式带显式 reasoning。结果实测响应延迟从 1.5s 飙到33 秒慢了 22 倍。根因thinking 模型适合离线深度推理不适合交互式实时回复。修复interactive场景禁用 thinking 模型。memory 卡feedback_avoid-thinking-models-for-interactive永久驻留。判断升级模型选型必须按使用场景分档。不是哪个最强用哪个是这个场景需要什么样的延迟/精度比。六、写在最后深度判断力 × Claude Code 老法师的新杠杆回到最开始那个问题老法师的深度工程判断力在 AI 原生开发模式下到底能折算成多少生产力我把这条等式拆开深度工程判断力让我跳过了 90% 的选型试错——我不需要试 5 个后端框架才发现 NestJS 适合大规模代码生成。我不需要踩 3 次 ORM 的坑才知道 Prisma migrate dev 必须是铁律。我不需要被云厂商 SDK 单位坑两次才学会读 type 注释。我不需要写两个 SSE 实现才知道前后端必须对称。AI 原生开发让我跳过了 90% 的编码反复——1,540 commits / 27 个活跃日 平均每天 57 个 commit。这不是AI 帮我写代码这是我口述判断、AI 落地代码、harness 验证真理、memory 锁定经验——一个完整的判断 → 代码 → 验证 → 沉淀闭环。引用 Shopify 工程副总裁 Farhan Thawar 的护栏工程师必须理解其工作层级之下 2-3 层的系统使用 AI 来加速学习而非替代它。 ——bvp.com/atlas/inside-shopifys-ai-first-engineering-playbook我把这句话翻译成 CTO 的版本AI 加速的是落地不是判断。判断不能外包。给中小团队技术管理者 的 5 条建议如果你是一个 10-30 人团队的 CTO正在思考怎么把AI 原生开发落地我这 30 天换来的 5 条建议先写 CLAUDE.md再写代码。150 行宪法。每加一条删一条。这是你团队的AI 集体潜意识。memory 不是日记是 sticky knowledge.只记再犯一次会致命的事。feedback_/critical-/project_三类前缀分清楚。harness/p0 是真理之锚不是装饰。不写 P0 的功能不算交付。AI 改完跑一遍这是你睡得着觉的唯一理由。栈选择优先AI 友好而不是性能极致。NestJS 的 DI 比 Fastify 的 throughput 重要 10 倍——因为前者帮 AI 不出错后者只是优化已经出错的代码。深度工程判断力是放大器的乘数。别想着换一个工具就行。AI 是放大器——它把你的判断力放大成生产力也把你的判断错误放大成事故。该补判断力补判断力该买经验买经验AI 治不了你不思考。下一篇编码阶段模型切换——我怎么把 Claude Code 的 token 消耗降了 50%。四阶段 token 分布表 写代码不需要最强推理只需要最合适的模型核心洞察。关注「新点智流学社」不错过。关于作者木子霖 AI智流学社架构师 / CTO / AI 原生构建者正用 AI Native 的方式构建学练一体成长引擎欢迎您基于他打造你的个人成长引擎。如果这篇文章对你有用欢迎转发给身边的朋友——我相信不只我一个人在思考工程积累 30 天交付这个等式。