
1. 项目背景某硬件公司的产品说明书是 PDF 格式,包含大量图文混排内容——产品外观图片、电路连接示意图、参数规格表格、操作步骤截图。售后团队将 200+ 份说明书导入知识库上线两周后,客服同事反馈了一个令人哭笑不得的场景:用户问"这个接口在设备哪个位置",纯文本 RAG 回答——“请参见说明书第 3 页的接口图示”。回复本身没错,第 3 页确实有一张标注了所有接口位置的示意图,但纯文本 RAG 只能告诉你"去看图",没法把图片呈现给用户。用户问"红色指示灯亮了代表什么",纯文本 RAG 回答"指示灯状态请参见说明书第 15 页",然而"红色指示灯亮起表示设备过热需立即断电"这条关键信息恰恰只在说明书第 15 页的一张提示图中以红色标注文字呈现,正文里一个字都没有。三个维度的信息丢失尤为突出:第一,图片信息丢失。产品说明书中的示意图、标注图、流程图承载了大量"一图胜千言"的信息——比如电路板的跳线设置、设备接口的物理位置、LED 指示灯的颜色含义。这些信息是"天然的图片信息",以像素和标注形式存在,文本层根本没有对应的文字描述。Embedding 模型再强,也无法理解一个没有文本的图片区域。第二,表格结构破坏。规格参数表——3 列 10 行,列标题是"参数名 / 最小值 / 最大值",纯文本解析后变成了一行混乱的字符串:“参数名 最小值 最大值 输入电压 12V 24V 工作温度 -20 85 额定功率 50W 200W…”。列与列的对应关系丢失,用户问"输入电压的最大值是多少",系统要么找不到,要么把"工作温度的最大值 85℃"当成答案。