
本方案目标从月度 2 万条或百万级工单文本中自动发现 10–30 个知识主题生成可读知识卡片主题名称、典型描述、根因、推荐方案每条结论附原始工单 ID确保可追溯LLM 调用次数固定与样本量无关整体处理时间2 万条数据小于 5 分钟核心技术组合EmbeddingBGE-M31024 维聚类k-LLMmeansGitHub: jairoadiazr/k-LLMmeans向量存储ClickHouse 原生 Array(Float32) HNSW 索引Agent 框架LangGraph封装为 KnowledgeMiningTool处理位置Embedding 与 k-LLMmeans 聚类全部在 Agent 侧Python 进程完成ClickHouse仅负责数据拉取、向量持久化存储及 HNSW 索引向量存储设计推荐独立表CREATE TABLE IF NOT EXISTS work_order_embeddings ( order_id String, dt Date, embedding Array(Float32), cluster_id UInt32 DEFAULT 0, cluster_summary String ) ENGINE MergeTree() ORDER BY (dt, order_id); ALTER TABLE work_order_embeddings ADD INDEX embedding_hnsw embedding TYPE hnsw(L2Distance) GRANULARITY 1000;系统架构图输出层Agent 侧 Python LangGraphClickHouse 存储层1.时间范围查询2.拉取文本3.生成向量4.读取向量5.LLM 生成质心6.写入聚类结果7.生成报告宽表 wide_work_order_table 工单名 总结 聊天记录向量表 work_order_embeddings embedding HNSW索引KnowledgeMiningToolBGE-M3 Embedding sentence-transformersk-LLMmeans 聚类引擎LLM\nQwen2.5 / DeepSeek / Grok 仅生成质心总结知识维度报告 Markdown/PDF 知识卡片 可追溯ID处理流程图用户输入时间范围Agent 调用 ClickHouse 拉取工单文本数据Agent 侧 BGE-M3 批量生成 Embedding 拼接工单名 总结 聊天记录向量写入 ClickHouse work_order_embeddings 表 支持增量Agent 侧 k-LLMmeans n_clusters15~20 LLM 仅对质心调用 与样本量无关聚类结果写回 ClickHouse cluster_id cluster_summaryLLM 生成知识报告 每簇包含 主题名称 占比 根因与方案 Top5 工单ID知识维度报告完成 可存入知识库 RAG主要优势聚类结果可解释且 100% 可追溯支持百万级扩展分批 Embedding 子采样LLM 调用次数固定成本可控可直接集成现有 ClickHouse 宽表