从零开始做一个AI Agent（六）文本切块：chunk、metadata、语义类型和 embedding 状态-尧图网站设计

从零开始做一个 AI Agent以 Java Web RAG 学习助手为例本文是一套面向技术博客专栏的完整教程。它不是只讲概念而是以当前项目为真实案例从一个最小后端 API 出发逐步扩展到课程资料知识库、RAG 问答、轻量级 Agent Harness、工具注册表、执行 Trace、答案校验、学习记忆和前端工作台。示例项目定位面向 Java Web 课程资料的 RAG Agent 学习助手用户可以上传课程课件、实验指导书、代码文件和配置文件。系统会解析资料、切块、建立检索索引用户提交学习任务后Agent 会判断任务类型、规划步骤、调用工具、生成回答、校验引用并把执行过程展示给前端。专栏总目录项目总览从普通问答到课程学习 Agent技术栈和工程结构FastAPI、Vue、SQLite、RAG、Agent Harness后端基础设施配置、数据库、模型和 Schema资料上传文件存储、文档记录和重建索引文档解析PDF、Word、PPT、Markdown、代码文件如何进入系统文本切块chunk、metadata、语义类型和 embedding 状态检索系统关键词检索、向量检索、query rewrite 和 rerankLLM 与 Embedding Providerstub、OpenAI-compatible API 和本地模型接入Chat 问答入口兼容普通问答同时接入 Agent 主链路Agent Harness一次 Agent run 的生命周期Planner、Executor 与 Tool RegistryAgent 如何规划和调用工具Agent 校验、安全边界与资料不足处理Agent 记忆短期上下文、长期学习画像和推荐下一步前端工作台资料管理、Agent 任务、Trace、历史和健康状态测试、局限和演进从教学项目走向生产级 Agent SaaS第 6 篇文本切块chunk、metadata、语义类型和 embedding 状态6.1 为什么要 chunk大文档不能直接进入检索和 Prompt。chunk 的作用是控制单段长度保留来源信息支持局部检索支持局部引用支持 embedding6.2 切块入口文件backend/app/services/chunking.py入口函数defchunk_parsed_document(parsed:ParsedDocument,max_chars:int900,overlap_chars:int120,)-list[ChunkData]:默认策略每块最大 900 字符相邻块重叠 120 字符重叠的意义是避免知识点刚好被切断。6.3 ChunkData 结构dataclass(frozenTrue)classChunkData:content:strchunk_type:strsource_title:strsource_path:strsource_page:int|Nonelanguage:str|Nonemetadata:dict[str,Any]这些字段最终会写入chunks表。6.4 LLM metadata enrichment每个 chunk 会尝试调用 LLM 生成元数据semantic_type entities summary允许的 semantic_typeconcept lab_step code error exam_hint configuration general如果 LLM 不可用系统会兜底代码 chunk - semantic_type code 其他 chunk - semantic_type general这体现了项目的稳定性原则LLM 增强可以失败但核心入库流程不能因为 LLM 不可用就完全不可用。6.5 文档入库状态流转文件backend/app/services/ingestion.py状态流转uploaded - processing - chunked - indexed失败时failed error_message入库流程会先删除旧 chunks再写入新 chunks避免 reindex 后出现重复数据。

从零开始做一个AI Agent（六）文本切块：chunk、metadata、语义类型和 embedding 状态

相关新闻

三步打造你的专属游戏串流服务器：Sunshine终极方案指南

如何用一款开源工具实现网盘高速下载：告别限速的完整指南

Qwen-VL-2512+Gradio三分钟搭建AI海报工坊

Mapper算法标签置换零模型的统计收敛性证明与工程实践

国产开源神器！一个U盘装N个系统，拷贝ISO就能启动，再也不用反复格式化！

在 muShanghai × 观猹 AI 练摊集市的一次高密度体验

OpCore Simplify：终极黑苹果配置简化指南，3步完成专业级EFI创建

ElasticHD终极指南：三分钟快速部署Elasticsearch可视化监控平台

终极指南：如何绕过Windows 11硬件限制，让旧电脑也能免费升级

计算机毕业设计之“大玩家”游戏论坛的设计与实现

如何在PC上免费畅玩Nintendo Switch游戏：Ryujinx模拟器终极指南

NewTab Redirect!终极指南：5步打造你的专属Chrome新标签页

2026 最全AI编程软件安装与上手实测教程

进化博弈论解析AI代理欺骗行为与风险管控

深入解析P89LPC932A1 CCU模块：输入捕获与PWM实战指南

Harness 中的响应合并：将多个片段组装为完整输出

Windows Cleaner终极教程：5分钟彻底解决C盘爆红问题，让系统重获新生！

别再只会用ifconfig了！在Ubuntu 22.04/20.04上，教你用ip命令并顺带配置好国内镜像源