
本章难度★★★☆☆ | 预计阅读时间35分钟你将学到幻觉的深层机制与应对、上下文窗口的三个核心问题、延迟的系统观、产品设计的兜底策略引言LLM不是万能的在第一章和第三章我们讨论了LLM的强大能力和RAG等增强技术。但作为PM你必须清醒地认识到LLM有固有的局限性这些局限性不是技术问题而是模型本质决定的。承认局限性不是否定LLM的价值而是更好地设计产品。1. 幻觉问题1.1 什么是幻觉幻觉HallucinationLLM生成的内容看似正确、有逻辑、流畅但实际上与事实不符或完全错误。这不只是LLM的bug而是它的feature——理解幻觉的深层机制才能真正设计出可靠的AI产品。三种幻觉类型类型描述示例事实型幻觉生成不存在的事实、人名、数据“北京理工大学计算机学院的张教授在2024年获得了图灵奖”实际没有推理型幻觉看似合理但推理过程有问题数学计算错误、因果关系混乱引用型幻觉引用了不存在的来源或错引段落“根据《民法典》第XX条…”实际没有这条1.2 为什么会产生幻觉——三层机制对幻觉的理解需要升级。2026年的认知是幻觉来自三个层面不只是模型没学到知识。第一层概率建模的本质LLM的目标函数是likelihood最大化不是truth最大化。这意味着它生成的是最可能的回答而不是最正确的回答对于长尾知识罕见、少见的内容模型更容易蒙一个第二层对齐机制的反向作用RLHF人类反馈强化学习和SFT监督微调让模型更乐于回答“宁可回答也不说不知道”——模型被训练成尽量给答案即使不确定过度自信overconfidence——对错误答案也很笃定2025-2026年的现代模型已有更强的refusal能力拒绝回答不确定问题的机制但仍有局限这不是模型笨而是训练目标与事实正确之间的本质矛盾。第三层上下文的信息干扰重要2026新认知这是最容易被忽略的一点上下文越长信息越多重要信息的权重被稀释当多段信息相互冲突时模型可能误解或过度推断即使所有信息都在上下文窗口内放得越多效果可能越差一句话总结幻觉不仅来自没知识还来自**“信息太多或信息冲突”**。1.3 RAG能解决幻觉吗——精确化第三章讲了RAG但需要更精确地理解RAG的能力边界RAG能降低的知识缺失型幻觉模型不知道的事实通过检索补充RAG无法解决的推理型幻觉即使有正确上下文推理过程仍可能出错引用型幻觉模型可能看懂了文档但引用错或混合多个文档RAG常见幻觉错误模式错误类型描述真实案例引用错段落检索到正确文档但引用了错误的片段文档A和B都说的是不同的事模型混在一起多文档混合多个文档信息冲突时生成缝合怪两个法条的规定混在一起生成了不存在的第三条过度推断上下文没有明确支持但模型推断出来了根据甲有罪和乙知情推断乙有罪1.4 引用机制——对抗幻觉的核心武器这是当前工业界对抗幻觉的标配但你可能没注意到策略强制引用Citations要求模型回答时必须附带来源片段文档ID或链接产品价值用户可验证用户可以点击原文核实可解释性回答有根有据不是凭空生成可审计尤其法律、医疗场景监管要求回答可追溯这是RAG产品的标配能力。如果你发现某个AI产品没有引用机制那它大概率还在2023年的水平。1.5 如何在产品层面应对策略1引用机制 可验证设计产品要求 1. 模型回答必须附带来源片段 [来源: 文档A, 第3段] 2. 用户可点击跳转到原文 3. 高风险场景医疗/法律强制显示完整引用策略2Prompt约束Prompt约束示例 如果你不确定答案请明确说我不确定不要编造。 只回答你有明确证据支持的内容。 在引用时必须标注来源文档。策略3架构设计规避而不是检测解决重要判断在大多数线上产品中逐条事实核查成本极高且不可行。因此幻觉问题本质上必须通过架构设计规避而不是检测解决。翻译成人话不要想着让AI不犯错要想着让AI只回答它能回答对的高风险场景 → 直接不上AI用人工策略4Human-in-the-loop 降级策略低风险场景一般问答→ AI直接回答 中风险场景产品推荐→ AI回答 随机抽检 高风险场景医疗建议→ AI回答 人工审核必须有 极高风险场景法律判决/处方→ 不上AI用人工2. 上下文窗口限制——三个核心问题2.1 表面问题 vs 深层问题你的文章只写了超出窗口就截断——这是表面问题。2026年的真实产品经验是没超出窗口也会出问题。必须理解三个核心概念2.2 Attention Dilution注意力稀释当上下文越来越长时每条信息的权重被稀释模型看不清重点重要的信息淹没在大量无关内容中对产品设计的影响场景客服对话用户提到上个月的订单 问题如果对话历史很长上个月的内容权重可能很低 结果模型可能忽略这个关键时间信息 设计建议结构化提示词把关键信息放最前面或最后面2.3 Lost in the Middle中间信息丢失研究发现模型对开头的信息理解好 ✔模型对结尾的信息理解好 ✔模型对中间的信息理解差 ❌对产品设计的影响RAG场景 检索返回5个文档片段按相关性排序后放中间 → 模型可能看不见中间的内容 设计建议重要的chunk放两端不太重要的放中间2.4 Context Rot上下文腐化这是比窗口上限更严重的问题不是到上限才坏而是逐渐变差上下文越长质量下降越明显100K窗口用满了效果可能不如只用50K2.5 一句话总结必须改写你原来写的是有上限 → 需要切分升级为问题不只是放不下而是**“放得越多效果越差”**。2.6 Memory策略——真实产品做法你写的保留最近N轮是toy-level方案。真实产品的分层记忆记忆类型内容策略短期记忆最近几轮对话保留原始内容摘要记忆对话历史的压缩摘要LLM生成摘要丢弃原始长期记忆用户偏好、已知事实结构化存储key-value结构化记忆用户Profile、历史任务数据库存储一句话升级实际产品采用分层记忆 摘要压缩而不是简单截断。2.7 当前主流模型的上下文窗口模型上下文窗口说明GPT-4o128K Tokens约10-15万字中文GPT-4系列主力GPT-5.41M Tokens约75-100万字中文当前最大上下文之一Claude Sonnet 4.61M Tokens约75-100万字中文编码/Agent能力最强Gemini 2.0 Flash1M Tokens约75-100万字中文延迟最低GPT-3.516K已淘汰不建议产品使用Claude 3.5200K已被4系列取代注意实际取决于分词方式中文通常更接近Token数而非字数。3. 延迟问题——系统链路视角3.1 延迟不只是模型慢关键指标2026年行业标准TTFTTime to First Token首个Token时间约597ms-4000ms取决于模型和服务器负载吞吐量Tokens/sec约30-150 Tokens/秒实际延迟计算实际延迟 TTFT (输出Token数 ÷ 吞吐量)例子生成500字约650 TokensTTFT1s吞吐量50 Tokens/s → 实际延迟 ≈ 1s 650÷50 14s你把延迟当作模型问题——这是单点视角。2026年的认知是延迟是系统链路问题。真实链路用户输入 → 预处理输入验证、格式转换 → 检索RAG场景的向量搜索 → 重排序Retriever输出排序 → Prompt构造拼装上下文 → LLM推理这只是其中一环 → 后处理输出格式化、敏感词过滤 → 返回用户LLM只是其中一环优化延迟必须全局视角。3.2 分层响应设计比Streaming更先进你讲了流式输出Streaming——这是对的但不够。更先进的设计是信息分层输出阶段时间内容用户感知快速路径 2秒直接给结论“秒回”慢速路径5-10秒给结论 解释“有道理”可选细节10秒补充背景、数据来源“深度”设计原则先给用户即时反馈再异步加载详细内容 → 用户不等 → 感知延迟大幅降低3.3 成本与延迟——同一个优化问题你漏了一个PM必须知道的维度Token数 ↑ → 延迟 ↑ → 成本 ↑这三个是同一个问题延迟优化 Token数控制成本优化 Token数控制更快的模型如GPT-4o比慢的模型贵但用的Token少更长的输出 更贵的API调用。PM必须做的权衡场景策略延迟成本简单问答小模型 短输出低低复杂分析大模型 长输出高高核心场景大模型 限制输出长度中中4. 幻觉率与召回率的权衡——产品决策框架4.1 一个PM可执行的决策公式你写了医疗保守、创意开放——这是方向但不够可执行。决策公式如果 错误成本 漏答成本 → 选择保守策略Precision优先 如果 漏答成本 错误成本 → 选择开放策略Recall优先判断错误成本 vs 漏答成本场景错误成本漏答成本策略AI法律助手用户可能承担法律责任用户无法获得法律指导极度保守AI医疗助手用户可能延误治疗用户可能换其他途径极度保守客服退款政策错判导致公司损失用户体验下降保守电商推荐用户体验下降销售机会损失开放RecallAI写作助手基本无严重后果用户得不到灵感极度开放4.2 Precision vs Recall 场景对比电商推荐 → Recall优先目标用户可能喜欢的东西都推出去 宁可推错不要漏推 → Precision低Recall高客服退款政策 → Precision优先目标只对符合条件的退款 宁可漏掉不要判错 → Precision高Recall低5. PM需要知道的技术边界清单限制说明产品设计影响幻觉一定会产生无法完全消除架构设计规避 引用机制上下文窗口问题不只是放不下而是放得越多效果越差Attention Dilution 切分策略延迟是系统链路问题不只是模型问题分层响应 TTFT/吞吐量监控知识截止模型知识有截止日期无法获取实时信息外部数据源实时RAG精确计算LLM不擅长精确数学计算调用计算工具Plugin/Tool长尾知识罕见事实容易出错事实核查 引用机制非确定性Non-determinism同一输入可能不同输出需要评测、A/B测试、容错设计重要认知升级LLM ≈ CPU计算单元RAG/Memory/Agent ≈ 操作系统。同一个模型可以做出完全不同质量的产品——差距在于系统设计而不是模型本身。6. 法律助手案例——高风险场景的教科书6.1 为什么法律场景特殊你最后的思考题问AI法律助手——但正文没有铺垫显得突然拔高。这里先补充AI法律助手的核心风险风险类型具体表现严重后果法律条文引用错误引用不存在的法条或错引条款用户行为失去法律依据判例幻觉编造不存在的判例用户基于虚假判例做决策法域混淆中国法 vs 美国法 vs 欧盟法混用跨境业务严重误导过度推断没有明确法律依据时推断出结论给出违法建议6.2 如何设计法律助手必要机制1. 强制引用 → 每个法律结论必须有法条原文 2. 法域标识 → 明确标注适用法域 3. 免责声明 → 本回答不构成法律意见 4. 人工审核 → 高风险回答必须律师审核 5. 不确定性表达 → 根据现行法推测 vs 确定地说7. 本章小结核心概念概念PM需要记住的一句话幻觉三层机制概率建模 对齐反作用 上下文干扰幻觉不只是没知识还来自信息太多或信息冲突上下文窗口问题不只是放不下而是放得越多效果越差Attention Dilution上下文越长重要信息权重越低Lost in the Middle模型看不清中间的内容延迟是系统问题LLM只是链路中的一环分层响应设计先给结论异步加载细节成本延迟Token数三个是同一个优化问题引用机制对抗幻觉的核心产品能力LLM ≈ CPU差距在系统设计不在模型PM的行动清单理解幻觉的三层机制不只是模型会犯错为每个AI功能设计引用机制用户可验证知道上下文窗口的深层问题Attention Dilution/Lost in Middle/Context Rot采用分层记忆而不是简单截断从系统链路视角优化延迟不只是换模型使用分层响应设计先结论后细节根据错误成本 vs 漏答成本选择Precision/Recall策略高风险场景医疗必须有人工审核兜底极高风险场景法律判决/处方不上AI用人工下章预告第五章我们将深入讲解如何读懂AI产品的技术架构图。你会学到RAG系统架构Agent系统架构多Agent协作模式常见技术栈快速识别思考题你正在设计一个AI法律助手用户可以问法律问题系统基于法律条文库回答。请思考这个场景有哪些幻觉风险提示条文引用、判例幻觉、法域混淆如何设计兜底机制提示引用机制、人工审核、免责声明Precision vs Recall策略应该如何选择提示错误成本极高本章字数约6500字如有问题或建议欢迎在评论区留言。