
随着 Agent 技术的发展和普及对于模型训练平台、模型推理平台带来了新的思考和新的挑战如何构建高效的推理调度平台的难度将变得更加方便快捷我认为这里面有很大的想象空间而且远不只是“把运维脚本换成 Agent”这么简单如果只是单纯的Agent - 调 kubectl Agent - 调 prometheus Agent - 调 vllm Agent - 调 pg这种本质还是传统 AIOps LLM 外壳或者更具体一点 Copilot for SRE。1 Agent 调度器传统推理调度Request ↓ Router ↓ Model Pool ↓ GPUAgent 化后Request ↓ Routing Agent ↓ Model Pool2 Agent GPU Scheduler传统 Kubernetes Scheduler 调度CPU、Memory、GPU对于模型、MoE 专家、Attention 热点毫不知情Agent Scheduler 可以推理提前预测迁移达到 Predictive Scheduling而不是 Reactive Scheduling。3 Agent KV Cache 运营今天大部分 KV Cache 基本是 LRU、FIFOAgent 会基于最近请求主动预热KV提前构造 Prompt Cache。未来可能是三层体系KV Cache → Knowledge Cache → Semantic Cache → Reasoning Cache4 Agent 自治理推理集群比较大的想象空间。今天集群治理基本上是Prometheus ↓ Alertmanager ↓ PagerDuty ↓ 人未来Metrics ↓ Observability Agent ↓ Diagnosis Agent ↓ Execution Agent ↓ Verification Agent例如GPU 利用率突然跌到 20%经过异常捕获、数据分析发现 batch Size 下降修改max_num_seqs: 128 - 256然后验证 GPU 利用率 20% - 72%最后提交变更记录。 整个过程无人介入5Agentic Observability目前主流的可观测是 Prometheus、Loki、Tempo、Jaeger本质还是数据平台。未来将是Metrics、Logs、Traces、Events全面进入 Operational Knowledge GraphAgent基于图谱推理延迟升高 ↓ 不是GPU ↓ 不是网络 ↓ 是Embedding Service ↓ 昨天刚升级Qwen3-Embedding ↓ 向量维度变化 ↓ 导致PGVector重建