快速搭建你的数据智能分析 Agent-尧图网站设计

本方案目标从月度 2 万条或百万级工单文本中自动发现 10–30 个知识主题生成可读知识卡片主题名称、典型描述、根因、推荐方案每条结论附原始工单 ID确保可追溯LLM 调用次数固定与样本量无关整体处理时间2 万条数据小于 5 分钟核心技术组合EmbeddingBGE-M31024 维聚类k-LLMmeansGitHub: jairoadiazr/k-LLMmeans向量存储ClickHouse 原生 Array(Float32) HNSW 索引Agent 框架LangGraph封装为 KnowledgeMiningTool处理位置Embedding 与 k-LLMmeans 聚类全部在 Agent 侧Python 进程完成ClickHouse仅负责数据拉取、向量持久化存储及 HNSW 索引向量存储设计推荐独立表CREATE TABLE IF NOT EXISTS work_order_embeddings ( order_id String, dt Date, embedding Array(Float32), cluster_id UInt32 DEFAULT 0, cluster_summary String ) ENGINE MergeTree() ORDER BY (dt, order_id); ALTER TABLE work_order_embeddings ADD INDEX embedding_hnsw embedding TYPE hnsw(L2Distance) GRANULARITY 1000;系统架构图输出层Agent 侧 Python LangGraphClickHouse 存储层1.时间范围查询2.拉取文本3.生成向量4.读取向量5.LLM 生成质心6.写入聚类结果7.生成报告宽表 wide_work_order_table 工单名总结聊天记录向量表 work_order_embeddings embedding HNSW索引KnowledgeMiningToolBGE-M3 Embedding sentence-transformersk-LLMmeans 聚类引擎LLM\nQwen2.5 / DeepSeek / Grok 仅生成质心总结知识维度报告 Markdown/PDF 知识卡片可追溯ID处理流程图用户输入时间范围Agent 调用 ClickHouse 拉取工单文本数据Agent 侧 BGE-M3 批量生成 Embedding 拼接工单名总结聊天记录向量写入 ClickHouse work_order_embeddings 表支持增量Agent 侧 k-LLMmeans n_clusters15~20 LLM 仅对质心调用与样本量无关聚类结果写回 ClickHouse cluster_id cluster_summaryLLM 生成知识报告每簇包含主题名称占比根因与方案 Top5 工单ID知识维度报告完成可存入知识库 RAG主要优势聚类结果可解释且 100% 可追溯支持百万级扩展分批 Embedding 子采样LLM 调用次数固定成本可控可直接集成现有 ClickHouse 宽表

快速搭建你的数据智能分析 Agent

相关新闻

FastAPI 2.0流式响应从POC到亿级调用量的演进路径：3阶段架构升级图谱（含SSE/Chunked Transfer/WebSocket选型决策矩阵）

避开这些坑，你的51单片机ADC读数才准确：XPT2046电路设计与软件滤波实战

4步精通RPG Maker游戏资源解密：RPGMakerDecrypter完全攻略

深度学习最新进展：大模型优化与多模态突破

LlamaEdge：轻量化大语言模型本地部署实践指南

船舶轨迹跟踪控制：神经网络与自适应滑模的混合方案

Wireshark从安装到过滤：网络协议分析实战指南

C++异步调用Triton推理服务器：从回调到Future的实战指南

Python C/C++扩展开发实战：从性能优化到打包分发

突破文档下载限制：kill-doc让你看到的都能保存

C++ string类模拟实现：从深拷贝到内存管理的完整指南

Block Buzz：用 Nostr 协议把 AI Agent 变成真正的队友，而非自动化幽灵

鸿蒙 ArkTS 实战：Emoji Idiom Guess 从表情成语猜谜到交互闭环完整解析

科研课题设计全流程：从选题到成果落地的实战指南

噗叽自动化评论脚本基本完成

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

国产DSP FT-M6678 DDR3配置避坑指南：从PLL时钟到PHY寄存器，手把手调通你的第一块板

Coze与Dify对比指南：低代码AI应用开发从入门到实战