Few-shot vs Zero-shot：我跑了 150 次实验，告诉你什么时候该给示例-尧图网站设计

一只用 AI Agent 搭副业产线的程序员有一个很经典的争论给 AI 示例到底有没有用有人说「给几个例子效果立竿见影」有人说「都 2026 年了模型够聪明不需要示例」。我跑了 150 次实验。结论不是「要不要给」——是「什么时候给、给几个、给什么样的」。什么是 Few-shot、Zero-shot先对齐定义方式做法类比Zero-shot直接下指令不给例子「来把这个活干了」One-shot给 1 个例子「上次老王的那个需求做法一样」Few-shot给 2-5 个例子「参考这几个案例按同样风格来」代码上长这样// Zero-shotmessages:[]Message{{Role:user,Content:将以下中文翻译成英文《西游记》是中国四大名著之一。},}// Few-shot (3 examples)messages:[]Message{{Role:user,Content:中文你好 / 英文Hello},{Role:assistant,Content:},{Role:user,Content:中文今天天气不错 / 英文The weather is nice today},{Role:assistant,Content:},{Role:user,Content:中文我是一名程序员 / 英文I am a programmer},{Role:assistant,Content:},{Role:user,Content:将以下中文翻译成英文《西游记》是中国四大名著之一。},}注意示例是通过user/assistant消息对传递的不是写在 System Prompt 里。因为放在对话历史里的示例模型会更认真地当成「期望的输入输出模式」。实验设计3 个任务 × 2 种策略 × 25 次任务难度为什么选它任务 A中文翻译英文⭐ 简单模型训练充分Zero-shot 天然强任务 BGo 代码生成特定风格⭐⭐ 中等格式一致性比正确性更难控制任务 C法律条款改写为通俗语言⭐⭐⭐ 难需要特定的写作风格和规则每个任务 Zero-shot 跑 25 次、Few-shot3 个示例跑 25 次。统计准确率和输出一致性。任务 A翻译——Zero-shot 就够了任务将 25 句中译英 Zero-shot 准确率92%23/25 Few-shot 准确率93%23.25/25 平均额外成本增加180%加了 3 个示例约 200 token翻译质量几乎没有提升。因为翻译是模型训练最多的任务之一不需要示例它已经很会了。结论常见任务Zero-shot 就够了。给示例是浪费 token。任务 B代码生成——Few-shot 决定格式任务生成 25 段 Go 代码「Go 惯用风格」标准error 处理用 if err ! nil、变量命名驼峰、不使用 panic Zero-shot 风格一致性64%16/25 完全符合 Few-shot 风格一致性96%24/25 完全符合额外成本增加320%差距巨大。不是模型不会写 Go——是「Go 惯用风格」太模糊。不给示例AI 按自己的理解来有的用了 panic、有的用下划线命名。给了 3 个示例后AI 秒懂你要的风格。结论涉及「格式」「风格」这种主观标准时Few-shot 是非必要的投资。任务 C法律改写——Few-shot 决定「能不能用」任务将 25 条法律条款改写成通俗语言标准普通人能一遍读懂、不丢失法律要件、不超过 100 字 Zero-shot 可用率36%9/25 可直接用 Few-shot 可用率84%21/25 可直接用额外成本增加280%Zero-shot 的典型翻车有的写成了「普法小作文」啰嗦到 200 字有的丢失了关键法律要件比如「应当」vs「可以」没分清有的用词太口语化失去了严谨性3 个精心挑选的示例一下子框定了「通俗」和「严谨」的边界。AI 通过示例学到了「这个尺度」在哪。结论复杂任务、有特定「分寸」要求的任务Few-shot 是刚需。示例怎么写3 个原则原则一示例比指令更响亮❌ 错误写法 System: 翻译要简洁不要啰嗦 User: 翻译《西游记》 → AI 理解的「简洁」可能跟你不一样 ✅ 正确写法 User: 中文《红楼梦》是中国古典小说。 / 英文Dream of the Red Chamber is a classic Chinese novel. Assistant: User: 翻译《西游记》 → 不用说你想要的风格示例自己会说话示例是最好的风格说明书。原则二3 个示例通常是甜点我额外跑了一组1 个示例 vs 3 个 vs 10 个。示例数提升额外成本ROI0→140%60%很高1→325%120%高3→105%400%低3 个是甜点区。再多边际收益递减严重。原则三示例要覆盖边界情况❌ 3 个示例都是「顺利的情况」✅ 示例 1 是正常情况、示例 2 是边界情况、示例 3 是错误情况// 好示例的设计examples:[]Example{{Input:正常输入,Output:期望的正常输出},// 示例 1快乐路径{Input:空输入,Output:{error: 输入为空}},// 示例 2边界情况{Input:输入: 非法字符###,Output:{error: 包含非法字符}},// 示例 3错误处理}这 3 个示例告诉 AI不仅要正常干活还要知道什么时候该报错。决策框架什么时候用 Few-shot这个任务模型以前做过无数次吗翻译、摘要、分类 → 是 → Zero-shot 就够了 → 否 → 继续往下看这个任务有「风格」或「分寸」要求吗 → 是 → 至少给 3 个 Few-shot 示例 → 否 → Zero-shot 试试不满意再加示例这个任务错了会造成严重后果吗法律、金融、安全 → 是 → 给 3-5 个示例并且人工审核结果 → 否 → 按前两条规则走我的实战经验开发日报 Agent 的时候我遇到一个经典问题AI 生成的周报有时候写成流水账有时候写成心灵鸡汤。改了 10 版 System Prompt 都搞不定。最后加了 2 个示例——一段「好的周报」、一段「烂的周报」——问题秒解决。很多你以为的「Prompt 不好」其实是「示例不够好」。下一篇我们做一个经典实验——同一道数学推理题加 Chain of Thought让 AI 一步步思考和不加准确率从 40% 飙到 85%。你会直观看到「思考过程」的神奇力量。关注我别错过。一只用 AI Agent 搭副业产线的程序员全平台同名虾哥不加班需要定制 AI 工具来聊聊 → lob_ai源码GitHub - lobster-bujiaban

Few-shot vs Zero-shot：我跑了 150 次实验，告诉你什么时候该给示例

相关新闻

Fluent后处理进阶：如何用表达式体积（Expression Volume）精准统计特定速度区间的流体体积？

避坑指南：GATK4最佳实践流程中，MarkDuplicates和SortSam那些容易踩的雷

告别绿幕！Runway‘移除背景’功能实测：个人UP主如何零成本制作酷炫转场与混合现实效果

M1/M2 Mac到手后，我这样配置Java开发环境（JDK 8 + Maven + MySQL 8.0）

伐度司他Vadadustat对比促红细胞生成素治疗非透析慢性肾脏病的血红蛋白波动

Spark ALS电影推荐系统毕设实战包：MovieLens数据建模+可运行代码+推荐结果输出

Linux pkill 命令：按模式批量杀死进程的原理与实践

AI时代语言教学：教师如何利用人工智能工具提升教学效率与核心竞争力

2026换背景照片制作教程:手机+电脑软件保姆级推荐

Harness 中的响应合并：将多个片段组装为完整输出

Windows Cleaner终极教程：5分钟彻底解决C盘爆红问题，让系统重获新生！

别再只会用ifconfig了！在Ubuntu 22.04/20.04上，教你用ip命令并顺带配置好国内镜像源

【英语学习笔记】基于“底层逻辑转换”与“去动词化”的英汉互译核心方法论及写作高分公式

终极视频下载解决方案：VideoDownloadHelper 完全指南

2026最新！AI论文写作工具测评：这几款知网都认可

Harness 中的响应合并：将多个片段组装为完整输出

Windows Cleaner终极教程：5分钟彻底解决C盘爆红问题，让系统重获新生！

别再只会用ifconfig了！在Ubuntu 22.04/20.04上，教你用ip命令并顺带配置好国内镜像源