)
【学习笔记】基于 SF-FastGPT 的高级大模型技术架构深度解析RAG Agent一、 RAG检索增强生成核心原理与工作流程标准 RAG 的本质是解决大模型“幻觉”与时效性问题。其标准流水线包含四个核心阶段分段、向量化Embedding、检索、生成。[原始文档] - [文本分段 (Chunking)] - [向量化 (Embedding)] - [存入向量数据库] | [用户输入 (Query)] - [向量化 (Embedding)] - [检索匹配 (Retrieval)] --- | [LLM (大模型)] --- [合入提示词 (Prompt)] ------ | [最终生成答案 (Response)]1. 核心步骤详解分段Text Splitting / Chunking逻辑长文本无法直接整体向量化。需要将原始文档如 PDF、Word按照语义或固定长度切分为多个文本块Chunk 1, Chunk 2…。目的保证检索粒度的精确性避免无关上下文稀释核心信息。向量化Embedding逻辑通过 Embedding 模型将切分后的文本块及用户的提问Query转化为高维稠密向量例如[1, 1, 2]实际生产中通常为 768 或 1536 维。目的将人类的自然语言转化为机器可计算的数学空间语义坐标。检索Retrieval / Matching逻辑计算用户输入的 Query 向量与向量数据库中各个 Chunk 向量的**余弦相似度Cosine Similarity**或内积。结果筛选出匹配度最高语义最接近的 top-K 个文档块作为背景知识。合入提示词 生成Prompt Injection Generation逻辑将“原始问题”与“匹配到的背景文档块”组装进同一个 Prompt 模版中。示例“请根据以下参考资料【…】。回答用户问题【…】”。最终投递将组装好的提示词输入给大语言模型LLM由 LLM 生成具备事实依据的最终响应Response。二、 多模态 RAG 构建的基本步骤当企业知识库不仅包含文本还包含非结构化的 PDF、视频、音频、图像时必须引入多模态 RAGMultimodal RAG。1. 核心搭建流程[多模态源码/文档] │ ▼ 【步骤一文档解析】 ── 将 PDF、视频、音频、图像进行结构化处理 │ ▼ 【步骤二信息提取】 ── 借助 OCR、语音识别、图像标注转化为计算中间表示 │ ▼ 【步骤三向量化存储】── 跨模态 Embedding 模型映射至同一语义空间 向量库 │ ▼ 【步骤四混合检索】 ── 语义检索 跨模态对齐 重排Rerank ── LLM 生成2. 关键节点技术攻坚文档解析与核心思路多模态文档检索的关键工程优化思路是**“将所有非结构化文档统一转化为 Markdown 格式文档再进行检索”**。Markdown 能完美兼容文本、表格关系、图片锚点是最适合 RAG 的中间表达。跨模态语义对齐在步骤三中必须使用支持跨模态的预训练嵌入模型如 CLIP 等确保“一张含有交换机的图片向量”与“‘交换机’这个文本向量”在多维空间中的物理距离是接近的。三、 上下文工程Agent 五大组件协同工作架构高级 AI Agent智能体的核心痛点在于单靠大模型本身的推理能力无法形成业务闭环。Agent 的本质是一个系统工程由大模型充当“大脑Agent Brain”周边协同五大核心组件。组件名称核心定义与功能核心作用LLM (Agent Brain)智能体大脑负责意图理解、逻辑推理、任务拆解与决策。沙盒 (Sandbox)提供安全隔离的动态代码/指令执行环境。防止 Agent 生成的恶意脚本或危险指令直接破坏物理系统或网络环境保障系统安全。记忆体 (Memory)赋予 Agent长期记忆与持续学习能力。沉淀历史交互数据Context Window 之外的持久化存储避免多轮对话后“失忆”。MCP标准化工具调用协议(Model Context Protocol)。统一的对外接口标准负责连接 Agent 与外部物理世界如数据库、API 网关。Skill (技能库)封装专业领域知识与方法论的模块。将特定的 SOP、业务逻辑或排障脚本打包直接提升 Agent 在垂直领域的任务解决能力。AI 网关 (Gateway)系统对外统一流量入口。负责流量限额、Token 审计、安全过滤、合规性检查以及多 Agent 协同的监控。架构洞察Agent 从“意图理解”到“安全执行”的完整生命周期不是 LLM 的单兵作战而是五大组件相互协同的结果。MCP 负责打通边界Sandbox 负责兜底安全Memory 提供上下文纵深Skill 提供专业度AI 网关卡死准入。