
研究Aiops有一段时间了,今天的案例是基于codebuddy和Prometheus MCP做一个针对Prometheus的运维智能体。我们最终的目的是为了实现,通过自然语言来查询各个监控指标数据。比如,我想知道最近1小时CPU的使用情况,是否异常,我可以这样问智能体:帮我分析一下集群最近 1 小时 CPU 使用率是否异常?1. 核心技术栈codebuddy:腾讯智能体构建平台,负责指令理解 + Agent 推理 + 执行工具Prometheus:监控系统,提供指标查询接口Prometheus MCP Server:将 Prometheus 的 query API 封装为 MCP 工具,使大模型可直接调用2.MCP部署与配置步骤 1: 准备Prometheus环境这里假设你已经搭建好Prometheus服务,并做好了各种exporter(如,node_exporter)和k8s各监控资源的接入。步骤 2: 部署 Prometheus MCP Server目前提供Prometheus mcp服务的开源项目并不少,我找了一个亲测可用的项目,地址为:https://github.com/tjhop/prometheus-mcp-servergithub上默认使用8080端口,可根据实际情况进行修改它的README里提供了详细的部署步骤,你可以根据你的使用场景来选择不同的安装方法,我这里使用的是docker的方式启动服务:启动 docker run -d -p 28080:28080 ghcr.io/tjhop/prometheus-mcp-server:late