【AI测试路线图2】功能测试转 AI 测试:4~5 个月,一条最稳的路

发布时间:2026/5/18 20:37:25

【AI测试路线图2】功能测试转 AI 测试:4~5 个月,一条最稳的路 导读这篇不是《零基础 58 个月》的精简版而是专门给「会测但不确定要补多少」的人看的裁剪版。你有用例、缺陷、业务沟通——不用推倒重来。真正要补的通常只有两块脚本能不能落地约34 周以及脑子能不能接受没有唯一标准答案换脑约1 周。线 A、线 B 各块细节需要时再翻零基础篇对应节本篇只写跳过什么、硬磕什么、做到什么算过关、怎么排四个月。作者测试员周周 | 14 年测试老兵阅读时间约 10 分钟搭配阅读《零基础转AI测试5到8个月照着走》——需要某一块「学到哪就够」时再去翻先选对篇、选对线选择树你是谁 ├─ 零基础 / 没写过代码 → 读《零基础转AI测试58个月照着走》 └─ 会功能测试 / 会用例 → 读《本篇》 ├─ 业务里 AI 占比小 → 主走线 A赋能AI 帮你测业务 └─ 岗位明确是 AI / Agent 产品 → 主走线 B测智能行为定好「读哪篇、主走哪条线」再往下翻两条线不要混成一门课。我带过的功能测试同事里转得最快的往往不是学得最拼的而是最先想清楚走线 A 还是线 B、并且没把零基础路线图从头抄一遍的那个。很多人学了一阵觉得「跟上一篇没区别」问题往往在这里你已经会写用例了却还去啃两三周的测试入门你已经会在 Excel 里点回归了却还在系统学 Python三个月还没跑通第一批 pytest。你不是「不会测试」——你只是第一次遇到没有唯一正确答案的被测对象。这句话能帮你减掉一半无谓焦虑。你和零基础差在哪先对这张表维度零基础要先…你已经…所以你应该…测试思维学 24 周「测试在测什么」会写用例、会追缺陷跳过系统测试入门最多复习 23 天编程68 周 pytest往往最磨人可能只会 Postman / 偶尔抄脚本用 34 周把「会测」升级成「能脚本化」再进主线见下节底座业务没有懂场景和风险做黄金集、写规范时直接当优势用预期结果习惯「一个标准答案」同上先花一周换脑否则测大模型会很难受总周期两条线各一个小成果58 个月—冲刺 45 个月 / 稳妥 46 个月在职每天 1.52 小时周末才学、或每天不足 1.5 小时在「稳妥版」上乘 1.31.5。刚毕业全力学、每天 23 小时还能再快半档。线 A 和线 B 不是「简单 vs 难」而是测普通软件vs测智能行为被测对象、确定性、风险点都不同。先定主线再裁剪不要两条线混成一门课。功能测试专用验收标准做到什么算过关下面把抽象词换成你能对照检查的动作。过不了某一格就还在那一格别急着进 Agent / 红队。原来你会现在要做到可验证写 Excel 用例同一批用例能变成pytest本地一键跑完口头说业务规则能写成SKILL.md或等价规范改规范能改出生成/脚本方向手工点回归不打开界面也能跑完核心接口/UI 冒烟Playwright 或接口二选一报 Bug能说清AI 相关失败类型如检索错、幻觉、工具调错和风险档做验收 / 签字能根据指标 人工复核说拦 / 放行哪怕只对比两个 Prompt 版本规范驱动做到哪有一份你自己写的规范 对应 pytest/Playwright能跑别人改需求时你能说清改规范还是改脚本。黄金集版本化把你最熟的20 个用例改写成三列——输入、通过规则、人工复核结论——这就是第一个黄金集用 git 或文件名标 v1/v2能批跑对比两次发布。Agent「能画图」能画出「需求 → Prompt/规范 → 执行 → 报告」四步不要求自己写调度内核。如果你现在还在抄 Postman 导出脚本、却跑不通 pytest说明还没出底座阶段别进线 A 后面的 RAG / Agent。10 分钟选主线别两条线混成一门课团队仍是传统业务为主电商、后台、AppAI 多半用来写用例、生成脚本 →主学线 A赋能。线 B 补到能列几种 AI 失效模式、能参与黄金集评审即可大约一两成时间。岗位明确是大模型应用、智能客服、Agent→主学线 B。线 A 至少要pytest 能独立写 一条接口或 UI 冒烟能跑否则评测只能停留在 Excel 点检。JD 两条都写→ 两个方向各做一个能打开演示的小成果面试先说你们产品里 AI 占多大再展开。比简历堆十个框架名管用。共同底座34 周不是「两三周搞定一切」口径统一换脑约 1 周 脚本化 23 周 API 34 天可与脚本化并行≈ 34 周。不是「两周补完、第三周就上 Agent」。换脑传统测法和 AI 测法差在哪约 1 周必做自己画一页对照左列你熟悉的测法右列写——用 AI 辅助时变在哪、测 AI 产品时又变在哪。最小练习换脑周必做一次找一个你熟的老用例强行写出三种不同但都算「通过」的结果并写下哪一种算好、为什么——这就是以后评大模型时「规则 人工」的预演。很多人转型半年仍用「必须唯一预期结果」去卡大模型问题就出在这一步。学到哪就够能举例说明预期结果什么时候从「一个答案」变成「规则 区间 人工评分标准」。脚本化把你会测的东西变成能重复跑的23 周最容易拖把一组真实手工回归改成 pytest请求接口、断言、结果落盘。学到哪就够同事离职后你仍能在本地一键跑完这批用例。功能测试常见坑「我会 Postman」≠ 自动化追求框架完美三个月还没跑通第一批只抄代码不知道断言在守什么业务规则大模型 API34 天可与脚本化并行调通 API、懂 Token 和上下文、知道输出为何不稳定。走线 A 往往到这里就够走线 B 后面在 Prompt 和评测上加深。底座阶段可以明确跳过系统 Python 课、完整测试入门书、从零学「测试是干什么的」。线 AAI 赋能测试功能测试往往上手最快线 A 的 Agent / MCP不是让你去做 AI 产品而是让你知道测试流程可以被编排。时间紧时只要求能画图MCP 建议跳过浏览器用Playwright 直连。核心线顺序不要打乱RAG 不能后置pytest → Prompt → RAG查规范/用例/缺陷→ 规范驱动 → 接口 or Playwright → CIRAG 是 Prompt 和规范的记忆外挂不是「高级选修、以后再加」。模块你要做到可验证工具举例pytest手工回归→一键批跑pytest、httpxPrompt需求→可生成步骤/脚本Promptfoo可选RAG规范/用例能检索到再生成Chroma、Qdrant规范驱动SKILL.md 脚本能跑SKILL.mdPlaywright或接口一条主路径稳定Playwright / httpxCI提交能跑 pytestGitHub ActionsAgent编排可选四步流水线能画图LangGraphMCP可选时间紧跳过—功能测试 → 线 A 推荐节奏约 4 个月单线不要双线并行表阶段目标验收第 1 月pytest 接口手工回归能脚本化一键跑完第 2 月Prompt RAG 规范驱动需求→规范→脚本能跑能查规范/用例第 3 月Playwright或接口深耕一条主路径连续稳定第 4 月CI 小 DemoGitHub 能 clone、README 能看懂、CI 绿某块多两周正常以验收表为准不以「课看完」为准。附录线 A 周检查清单16 周含底座前置已跳过系统测试入门。按每天 1.52 小时在职估算周末才学则周数 ×1.31.5。还在抄 Postman、pytest 跑不通 → 停在第 13 周别往后挪。周次主题本周交付物验收一句话1换脑对照表 「三种通过」练习能举例何时用规则人工代替唯一答案2pytest 入门3 条真实接口进test_*.py本地 pytest 绿3脚本化10 条手工回归一键跑同事离职后你仍能本地批跑4API 巩固最小 API 封装token 日志与第 23 周用例同一业务5Promptprompts/gen_case.txt等需求 → 步骤/脚本骨架可复用6RAGrag/入库规范 用例检索到再生成/改脚本不是摆设目录7规范驱动specs/SKILL.md业务规则写进规范不是空话8规范 脚本规范对应 pytest 能跑改需求能说改规范还是改脚本910接口或Playwright 起步主路径第一条自动化核心回归不点界面也能跑1112接口或Playwright 深耕扩展用例 / 一条 UI 冒烟同路径连续 3 次绿13CI.github/workflows/ci.ymlpush 触发 pytest 绿1415小 Demo仓库 README 流程图能口述需求→Prompt→RAG→规范→脚本→CI16复盘 / 投递简历线 A 段落 模拟面试GitHub 外人能看懂你在做什么Agent/MCP第 16 周有余力则画四步流程图即可不要求接 MCP。线 B测 AI 系统心理预期 降级方案线 B 不是「功能测试升级版」而是全新测试对象。第一次看到 RAG / Agent / 红队发懵很正常。降级方案如果学线 B两周仍在抄命令、说不清在测什么先退回线 A 做深pytest 规范 RAG CI不要硬扛线 B。不要造轮子不要自己训模型、不要自己搭 RAG 框架内核、不要自己写 Agent 调度内核。会用、会评、会限流、会拦截就够了。目标是守住 AI 的行为边界不是「做出 AI」。零基础阶段不是十个模块都要学完。功能测试转岗必会Prompt 工程、模型评测、RAG、Agent、安全 可批跑的 AI 测试专项可选性能与成本会看延迟/Token 即可进阶后置多模态、微调、自研平台。模块你要做到可验证工具举例大模型基础复习Ollama本地LiteLLM多模型接入LiteLLM、OllamaPrompt工程定性清单 定量指标 批跑对比Promptfoo、Langfuse模型评测20 个熟用例→输入/通过规则/人工结论v1→v2 对比Ragas、DeepEvalRAG链路图 故障清单评检索对不对LlamaIndex Chroma/QdrantAgent能复现一个失败案例固定种子LangGraph/CrewAI 选一AI测试专项事实一致性、拒答边界、工具参数等pytest 批跑安全510 条可回归红队用例非论文级攻击Garak、PyRIT性能与成本会看延迟/Token可后置Locust/k6 Langfuse 等项目实战见下project-demo结构自建 Demo面试专题用你自己的 report 讲拦/放行—黄金集动作版别停在名词把你最熟的 20 个用例改写成输入 通过规则 人工复核结论git 标版本批跑跑两轮——这就是「版本化 发布对比」。project-demo 最小交付物project-demo/ ├── README.md # 测什么、怎么跑 ├── golden_set.jsonl # 1030 条即可 ├── run_eval.py # 一键批跑 ├── report.md # 拦/放行 依据 └── .github/workflows/ci.yml不会写README.md和report.md的不算能面试的项目。功能测试 → 线 B 推荐节奏约 45 个月单线阶段目标验收第 1 月pytest 巩固 Prompt会调模型评测用 Prompt 能写清 rubric第 2 月黄金集 评测3050 条可回归能跑 v1→v2 对比第 3 月RAG Agent能画链路、列故障有一个可复现坏例子第 4 月安全 报告510 条红队用例进集report 能支撑拦/放行第 5 月若要性能/成本或双线复盘会读 Token/延迟或整理投递材料面试反套路可以说「这块还在学」别说「做过 RAG 评测」却连召回率都算不出。附录线 B 周检查清单20 周前置pytest 独立能写线 A 底座或等价。若第 12 周仍说不清「在测什么」→退回线 A 附录不要硬扛。周次主题本周交付物验收一句话1pytest 巩固评测批跑骨架读 JSONL能批量跑输入、落盘结果2Prompt rubric评测 Prompt v1 定性清单能判好坏不只「感觉不行」3黄金集熟用例 20 条 → 三列 jsonl输入 / 通过规则 / 人工复核齐全4黄金集扩展补到 30 条git 标 v1能说清增删与版本规则56批跑 指标run_eval.py Ragas/DeepEval 一项一键跑完 v1有数字指标7版本对比v2改 Prompt 或规则对比表或草稿哪项变好/变差8report 草稿report.md前半有对比结论暂可不写最终拦/放行910RAG链路图 故障清单 ≥8 条至少 1 条能复现「检索错」类问题1112Agent工具/循环/记忆类用例 1 个固定种子坏例坏例连跑 3 次同类失败13AI 测试专项拒答/事实/工具参数等 ≥5 条进批跑失败信息能当缺陷描述14安全510 条红队用例进集可回归非一次性扫描1516project-demo五文件结构齐全README report 合格他人能 clone 跑17发布决策report.md定稿明确拦/放行 依据指标人工1819性能/成本可选Token/延迟截图或导出能口头讲「贵在哪、慢在哪」20面试 简历线 B 项目段落 模拟问答用自己做过的 report不背空框架时间紧怎么砍和功能测试更相关pytest 必须独立能写——还在抄 Postman 就别往下走。只保一条线的一个完整成果——别两条都「知道一点」。线 A按核心线 16 走RAG 不能砍Playwright 与接口二选一Agent 只画图MCP 砍。线 B黄金集维护 RAG含检索评测 Agent可复现失败 安全可回归小集。明确不碰系统 Python 课、完整测试入门、自训模型、自研 RAG/Agent 内核、完整商业平台入职后再说。简历和面试照抄模板再改数字两条线的项目分开写别混成一段「AI 测试全流程」。线 A 项目写法改 XX 和数字用 pytest Prompt 规范驱动将XX 业务回归从X 小时缩短到X 分钟减少约X%重复脚本维护规范与脚本分离需求变更主要改 SKILL 层。线 B 项目写法改 XX 和数字负责XX 场景的模型评测构建50 条黄金集输入/规则/人工复核基于 Ragas或 DeepEval完成v1→v2对比输出report.md支撑一次发布拦/放行决策。模拟面试练这一种说法比背题像真人我们业务里 AI 占多少我负责哪一段当时为什么选这个指标如果重来会改什么。和零基础那篇怎么配合读你的情况读哪篇怎么用没做过测试、没写过代码《零基础 58 个月》按阶段从头走做过功能测试本篇裁剪版底座34 周按本篇线 A/B 细节需要时翻零基础篇对应节不确定走哪条线两篇开头「选主线」都看一眼定主线后再裁剪对照结论你下一步干嘛读完若仍不确定从哪下手用下面两条对照二选一如果你现在还在抄 Postman、pytest 跑不通 回到底座34 周换脑 脚本化 API不要急着上线 A / 线 B。跟本篇「线 A 周检查清单」第 13 周或「功能测试专用验收标准」第一行。如果你已经能脚本化回归本地一键 pytest 绿 用本文验收表 选择树定主走线 A 或 B按对应周检查清单推进目标是一个能 clone、README 能看懂的 GitHub 项目线 A 小 Demo 或线 B 的 project-demo。某块卡两周正常以「本周交付物」验收不以课表页数为准。你觉得呢你更靠近线 A 还是线 B现在卡在「换脑」、「脚本化」还是「黄金集」评论区说我帮你判断下一步该补哪一块以及哪一块可以直接跳过。给同样在转 AI 测试路上的功能测试同学转发一下。关注测试员周周。如果你是零基础转行请看《零基础转AI测试5到8个月照着走》——不是本篇的加长版两篇分工不同。

相关新闻