
导读这篇写给没做过测试、或几乎没写过代码的朋友。做过功能测试的请看另一篇《功能测试转AI测试》——那边不讲两三周的测试入门讲的是你怎么跳过重复、两三周补脚本。本文按阶段拆每一段写为什么要学、学到哪就够、常见误区、建议时间。下表「58 个月」指每天约 23 小时、两条线各有一个能演示成果「34 个月投岗」指同一节奏下先走完线 A。在职或主要周末学月数乘以 1.31.5。作者测试员周周 | 14 年测试老兵转型 AI/Agent 安全测试阅读时间约 15 分钟搭配阅读《功能测试转AI测试别重学零基础那篇》——已有测试基础的同学不必从头抄本篇先选对篇、选对线选择树公众号可做成一张图正文保留文字版。你是谁 ├─ 零基础 / 没写过代码 → 读《本篇》58 个月路线 │ ├─ 建议先走线 A34 个月可投自动化岗 │ └─ 目标岗位明确是 AI / Agent → 线 A 底座后主走线 B └─ 会功能测试 / 会用例 → 读《功能测试转AI测试别重学零基础那篇》 ├─ 业务里 AI 占比小 → 主走线 A赋能AI 帮你测业务 └─ 岗位明确是 AI / Agent 产品 → 主走线 B测智能行为功能测试背景的同学不要从头抄本篇的测试入门与 68 周 pytest 节奏零基础同学定好「读本篇 主走哪条线」再往下翻。去年有个读者问我我想转 AI测试要学多久我说大概半年。他说网上有七天速成的。我说那你去看七天速成吧。三个月后他回来找我说七天速成的课看完了还是不知道自己能干什么。AI测试不是少学三个月就能上岗的方向但也不必默认一定要学满一年。岗位往往同时要你会写一点脚本、懂一点大模型、还要保留测试思维。每天能稳定学 23 小时、两条线各做一个能演示的成果时档位大概多久适合谁冲刺版56 个月能并行、平台/多框架只学到知道、主攻最小作品集稳妥版68 个月编程真是 0、或希望每块多练一点再往下走更慢9 个月以上每天 11.5 小时、或只有周末学——别跟全职比进度上表按每天能稳定学 23 小时可当作全职自学节奏估算。共同底座 线 A 走通后大约34 个月可先拿线 A 去投自动化/测开类岗不必等线 B 学完线 B 可边投边补。「34 个月投岗」的硬性门槛达不到就别焦虑「为什么我还没到 3 个月」不查教程自己能写一个 pytest 项目能口头讲清需求 → Prompt → RAG → 规范 → 脚本 → CI有一个GitHub 仓库README 能让人看懂你在做什么否则「34 个月」只会变成新的焦虑源。在职每天约 1.52 小时或主要只能周末学上表月数及「34 个月投岗」请乘以1.31.5投岗约46 个月双线作品集约710 个月视冲刺/稳妥而定。顺序上我建议先把用 AI 帮你测这条路走通再学怎么测 AI。不是第二条不重要而是你先会写 pytest、跑通一条自动化后面做评测批跑、黄金集回归会省力很多。反过来一上来就啃幻觉检测、Agent 工具调用很容易变成听得懂、手做不出来。线 A 和线 B 不是「简单 vs 难」也不是谁先谁后的进阶课而是两个维度维度线 AAI 赋能测试线 B测 AI 系统被测对象普通软件AI 系统 / Agent 产品确定性高有期望结果低行为可变测试目标功能 / 回归行为 / 风险 / 边界体感难度中等高线 A 测软件线 B 测智能行为。建议先走通线 A再进线 B不是因为线 B「更高级」而是因为线 A 的 pytest、批跑、规范习惯会省后面很多时间。第一阶段共同底座这一阶段枯燥但决定了后面快不快。测试在测什么两到四周先建立直觉测试不是点点点而是在风险和时间里做取舍。你会写几条手工用例、会写一份别人能复现的缺陷——复现步骤、期望和实际、环境写清楚。找一份功能测试入门材料即可。学到哪就够能独立写一小份用例和缺陷不需要会自动化。常见误区急着上 ChatGPT 写用例连业务场景都说不清。Python 和 pytest冲刺约 46 周 / 稳妥约 68 周本阶段最重重点不是当程序员而是测试工程师常用的那一小块发 HTTP 请求、读写 JSON、用 pytest 组织用例和断言。按测开常用 20% Python的思路学即可别系统啃完整 Python 课。这一阶段结束时你应该能对任意一个文档齐全的 HTTP 接口写一个小脚本批量请求、结果存成文件、用 pytest 断言状态码和返回结构。先不要纠结大模型回答得对不对那是后面线 B 的事。学到哪就够关掉教程自己从零写出一个能跑的 pytest 文件。常见误区系统学完整 Python 课程半年还没写到 pytest或者只抄代码不理解断言在守什么。计算机相关科班往往可偏冲刺档。是整条路里最值得多投时间的一块。大模型 API 入门大约 23 周弄清 Token、上下文、温度、怎么调 API、出错怎么办即可。目标不是背模型名而是以后自己调接口、看日志、跟开发沟通时不发懵。要能解释为什么同一个问题问两次答案可能不一样——这直接关系到后面你怎么设计用例。学到哪就够自己封装一个最小调用带耗时、token 之类日志能稳定调通。可与 pytest 后段略有重叠。第二阶段线 A —— AI 赋能测试这条线的本质是你还是测普通软件AI 是帮手。目标是落地自动化不是搭 AI 平台。别和线 B 混线 A 的 Agent 是编排测试流程线 B 的 Agent 是被测产品。判断标准时间紧时用这个筛如果一个模块不能让你少写代码、少维护用例就先别学。按顺序学这八个模块RAG 的唯一位置核心线不要往后挪RAG 不是「高级 AI 模块」而是Prompt 和规范驱动的「记忆外挂」——查规范、查用例、查缺陷。它紧跟 Prompt、走在规范驱动之前不能等到 Playwright、CI 之后再「有空再补」。零基础最容易踩的坑就是把 RAG 当成选修。核心线必学按此顺序pytest └── Prompt └── RAG查规范 / 用例 / 缺陷 └── 规范驱动SKILL.md └── 接口 or Playwright二选一 └── CI顺序模块学到哪就够工具举例1pytest批跑、断言、报告落盘pytest、httpx2Prompt需求→可生成步骤/脚本Promptfoo可选3RAG赋能规范/用例/缺陷入库检索到再生成或改脚本Chroma、Qdrant4规范驱动规范→生成脚本→跑通SKILL.md 格式5Playwright或接口测试二选一一条 UI 冒烟或延续阶段一接口 pytestPlaywright / httpx6CIpytest 接入流水线每次提交可运行、结果可追溯GitHub Actions 等可选线有余力再碰时间紧可整段跳过顺序模块学到哪就够工具举例7Agent编排只学 LangGraph 的 State Node能画四步流水线LangGraph8MCP建议跳过强依赖 Agent别绕「Agent→MCP→浏览器」MCP SDK浏览器用Playwright 直连即可——调试成本高、初期对业务收益不明显的是 Agent 套 MCP 套浏览器那一圈。保底三件套pytest Prompt 规范驱动——但RAG 与三件套同属必学缺了 RAGPrompt 和规范会各写各的、越学越散。时间紧也要走完上表16Playwright 与接口只选一个。最小落地版目录面试能打开仓库讲清楚即可tests/ ├── test_xxx.py # pytest prompts/ ├── gen_case.txt # Prompt specs/ ├── SKILL.md # 规范驱动 rag/ ├── chroma/ # 查规范、用例、缺陷记忆外挂核心线必做 .github/ └── workflows/ci.yml # CI先跑 pytest这一阶段结束时你应该能拿出什么pytest 冒烟或一条 Playwright二选一深耕一份规范 对应脚本能跑RAG 能演示「查规范/用例再生成或改脚本」一张流程图Prompt / RAG / 规范 / Playwright或接口 / CI各站哪Agent、MCP 有则标「可选」集中留两周打磨。面试讲改需求改哪一层、怎么少维护用例比堆 Agent、MCP 名词有用。第三阶段线 B —— Agent / AI 系统测试进入这条线时你要换脑子被测对象会想怎么说就怎么说很多用例没有唯一标准答案。下面十个模块都是真实方向但零基础阶段不是十个都要学完更别按「10 个 × 每个 23 周」去乘——那会误以为又要学一年。必会求职最小集Prompt 工程、模型评测、RAG 系统、Agent 系统、安全与合规 AI 测试专项里的可批跑项可选性能与成本至少会看延迟、Token、预算类指标进阶工作后再补多模态、微调、自研评测平台架构线 B 不要造轮子直接记住这四句❌ 不要自己训模型❌ 不要自己搭 RAG 框架内核❌ 不要自己写 Agent 调度内核✅ 会用、会评、会限流、会拦截线 B 的目标不是「做出 AI」而是守住 AI 的行为边界。按顺序学这十个模块模块学到哪就够可检验开源工具举例备注大模型基础API、Token、上下文能解释输出为何不稳定LiteLLM、OllamaOllama偏本地跑模型LiteLLM偏统一接入多模型 API——分工不同别混为一谈Prompt工程v1→v3 迭代定性检查清单定量指标含成本/延迟批跑对比Promptfoo、Langfuse「评分标准」要落地成清单和指标不能只写 rubric 名词RAG系统画全链路列故障清单分块、召回、上下文截断、引文错误等LlamaIndex Chroma/QdrantRAG 评测不止「答案对不对」还要评检索对不对模型评测黄金集或带标签集构建与维护批跑版本对比Ragas、DeepEval黄金集维护才是长期成本中心工具次之Agent系统工具调用、循环、记忆能复现失败固定种子、可重复跑的失败案例集LangGraph、CrewAI 选一只调通 demo 不算会至少要有一个能稳定复现的坏例子AI测试专项事实一致性、拒答边界、工具参数约束、多轮记忆一致性等pytest 批跑pytest 批跑比泛泛写「幻觉」更好测、更好讲安全与合规能设计510 条可回归的攻击用例注入/越狱等进批跑或 CIGarak、PyRIT零基础重点是可回归用例集不是复现论文级攻击工具会扫你要会收进自己的集性能与成本性能API 延迟/吞吐成本Token 计费、预算告警Locust/k6 LiteLLM proxy / Langfuse 等Locust/k6 管吞吐/延迟Token 成本多在应用层埋点与聚合别指望压测工具 alone项目实战按下方project-demo目录交付不会写 README 和 report.md 的不算「能面试的项目」自建 Demo把前面模块串起来见本节末模板面试专题指标含义、置信度、风险、回退、灰度/拦截线用你做过的报告高频发布决策反套路可以说「这块还在学」别说「做过 RAG 评测」却连召回率都算不出建议顺序大模型基础复习 → Prompt工程 模型评测 AI测试专项 → RAG Agent 并行 → 安全 → 项目实战打磨 → 面试。性能与成本时间紧可后置但「成本计量」别完全跳过至少能读 Langfuse/LiteLLM 账单类视图。常见误区用例十条号称全覆盖没有人工复核档工具装了一堆从没批跑过RAG 只评生成不评检索红队只扫一次不进集Agent 只会跑通 happy path。这一阶段结束时你应该能拿出什么零基础版最小交付物目录名可自定结构建议照抄project-demo/ ├── README.md # 这个 Demo 测什么、环境、怎么跑面试官第一眼看这个 ├── golden_set.jsonl # 黄金集1030 条即可能说清怎么维护 ├── run_eval.py # 批跑脚本一键跑完 ├── report.md # 版本对比结论拦 / 放行 依据哪怕只比两个 Prompt └── .github/workflows/ci.yml # 合并或定时触发评测硬性要求README.md和report.md写不清楚的不算「能面试的项目」。比「我读过 RAG」有说服力的是别人 clone 下来能跑、能看懂你拦了什么。还可口头补充一小套可回归红队用例、一次发布决策什么指标拦、什么只告警。建议留两到三周集中整理而不是零散笔记。第四阶段进阶有空再做工作一两年的人常问测试平台 / 评测平台到底长什么样走线 A 深的读一读把 pytest、Playwright、编排、知识库串起来的架构说明。目标不是复刻一个大系统而是能画出模块、知道每一块解决什么问题。走线 B 深的读面试专题里偏架构、评测的篇目想清楚发布门禁哪些指标拦发布、哪些只告警、线上怎么抽检。零基础的进阶可以放到入职后再补不必在第一条工作前硬造平台。附录线 A 周检查清单约 18 周按每天 23 小时估算某周未完成可整体延后最多 1 周不过关不进入下一周尤其 pytest、RAG 不可跳。在职或主要周末学周数 ×1.31.5。周次主题本周交付物验收一句话1测试在测什么5 条用例 1 份缺陷步骤/期望/实际/环境写清他人可复现2Python 入门能发 HTTP、读 JSON 的小脚本不抄完整教程也能改参数重跑34pytesttest_*.py 接口断言关掉教程从零写出能绿的 pytest5pytest 批跑10 条级批量用例 报告落盘本地一键跑完6大模型 API带 token/耗时日志的最小调用能解释「问两次答案为何不同」7Promptprompts/下可复用 Prompt需求 → 步骤或 JSON格式稳定8RAGrag/入库规范 若干用例/缺陷检索命中后能指导改脚本方向910规范驱动specs/SKILL.md 对应脚本改规范 vs 改脚本说得清1112Playwright或接口深耕一条 UI 冒烟或接口集扩展同路径连续 3 次 pytest/Playwright 绿13CI.github/workflows/ci.ymlpush 后自动跑 pytest 绿1415小 DemoGitHub 仓库 READMEclone 能跑、能讲清 Prompt→RAG→规范→脚本→CI16流程图可选 Agent一张流程图面试能指哪层改需求Agent 会画图即可1718打磨 / 投岗准备面试口述稿满足文首「34 月投岗」三条硬性门槛附录线 B 周检查清单约 16 周前置共同底座完成pytest 独立能写、API 调通。若从零单走线 B请先完成上一附录第 16 周或等价能力。不要造轮子本周目标均为会评、会拦不是训模型或写框架内核。周次主题本周交付物验收一句话1Prompt 工程评测用 Prompt v1 定性检查清单rubric 能判胡编/格式/越权中的两类23黄金集golden_set.jsonl20 条每条有输入、通过规则、人工复核结论4黄金集维护git 标 v1补到 30 条能说清怎么增删、怎么版本化5批跑脚本run_eval.py一键跑完 v1有结果文件或表格6模型评测指标接 Ragas/DeepEval 至少 1 个指标输出数字不是肉眼扫一眼7版本对比Prompt 或规则 v2 对比记录能说出 v1→v2 哪项变好/变差89RAG 系统链路图 故障清单 ≥8 条能评「检索对不对」不只评最终答案1011Agent 系统固定种子的失败案例 1 个同一输入连跑 3 次能复现同类失败12AI 测试专项拒答/事实/工具参数等 pytest 用例 ≥5 条进批跑失败信息可读13安全与合规510 条可回归红队用例改 Prompt/模型后能再跑、仍进集1415project-demoREADME golden run_eval report CIreport 能写拦/放行README 他人能跑16面试专题用 report 模拟发布决策能讲指标含义不说不会的召回率性能与成本时间紧放在第 16 周之后自学会读 Token/延迟即可。时间紧时怎么取舍如果只能保一件事pytest 必须独立能写。如果只能保一条线先完整走完线 A 的一个成果再动线 B。线 A核心线16 顺序不能乱RAG 不能后置pytest → Prompt →RAG→ 规范驱动 → Playwright/接口二选一 → CI。砍掉MCPAgent 只学到能画图。RAG 不是「以后再加」的选修。线 B必会Prompt 模型评测 RAG含检索评测 Agent含可复现失败集 安全510 条可回归用例即可。可选性能/成本会看指标。进阶后置多模态、微调、自研平台。阶段路线图一张表看清全貌阶段内容冲刺稳妥产出共同底座测试基础 Python/pytest 大模型API1.52个月23个月能写pytest、调API线Apytest→Prompt→RAG→规范→Playwright/接口→CIAgent/MCP可选22.5个月2.53.5个月自动化规范RAG流程图线BPrompt/RAG/评测/Agent/专项/安全/实战性能成本可后置22.5个月2.53.5个月评测集批跑报告CI进阶平台架构、发布门禁有空再做有空再做能画系统图对照结论你下一步干嘛读完若仍不确定从哪下手用下面两条对照二选一如果你关掉教程仍写不出 pytest、或只会抄代码却跑不通 留在第一阶段共同底座测试直觉 Python/pytest API不要急着进线 A / 线 B。跟本篇「附录·线 A 周检查清单」第 15 周。如果你已经能独立写出 pytest、本地一键跑绿 用上文选择树定节奏先完整走通线 A 核心线约 34 个月可投自动化岗岗位明确测 AI 再主攻线 B。按附录·线 A 或线 B 周检查清单推进目标是一个能 clone、README 能看懂的 GitHub 项目。某块卡两周正常以「本周交付物」和文首投岗硬性门槛验收不以课表页数为准。你觉得呢你是零基础还是已有测试经验现在卡在哪个阶段评论区说我帮你判断下一步。给同样在转 AI测试路上摸索的同学转发一下。关注测试员周周14 年测试老兵持续分享 AI测试实战经验。已有功能测试基础的请直接看《功能测试转AI测试别重学零基础那篇》——和本篇分工不同不是换标题的同一套内容。