
PolarDB 团队将积累的数据库运维专家经验与 LLM 推理能力结合构建了 PolarDB AI 助手。更进一步团队将这一能力封装为标准化的 Agent Skill ——alibabacloud-polardb-ai-assistant发布在阿里云 Agent Skills 门户使其可以被任何兼容的 AI Agent 客户端加载调用真正让数据库智能运维能力融入开发者的日常工作流。该 Skill 专注于阿里云 PolarDB MySQL 和 PostgreSQL 数据库的智能运维通过 Aliyun CLI 的 DAS 插件调用get-yao-chi-agent API来执行诊断和分析。01、技术架构从自然语言到智能诊断PolarDB AI 助手 Skill 的技术架构可以概括为一条清晰的调用链路Aliyun CLI→DAS Plugin (Signature V3)→get-yao-chi-agent API→ PolarDB 智能诊断。这条链路的设计哲学是「让 AI Agent 像 DBA 一样思考和操作」交互层用户在 AI Agent 客户端中用自然语言描述运维需求。Skill 接收自然语言输入不要求用户记忆 API 参数或命令格式。支持多轮对话可以逐步深入分析复杂问题。调用层通过 Aliyun CLI 的 DAS 插件发起 API 调用采用 Signature V3 签名机制确保传输安全。核心封装脚本 call_yaochi_agent.sh 处理流式响应解析屏蔽了底层通信细节。引擎层PolarDB 智能诊断引擎融合了 PolarDB 产品的专家知识库与大语言模型推理能力。它不是通用的 ChatBot而是深度理解 PolarDB 内核架构读写分离、IMCI 列存、Serverless 弹性、代理层路由等的垂直领域 AI。数据层引擎通过安全的内部通道读取集群元数据、实时监控指标、慢 SQL 日志、拓扑信息等所有数据访问严格遵循 RAM 权限体系。Skill 本身只做查询和诊断不执行任何 DDL/DML 操作。02、核心能力覆盖 20 运维技能域该 Skill 覆盖了 PolarDB 日常运维的绝大多数场景按功能域划分为以下核心能力性能诊断与优化集群性能监控QPS/TPS/连接数/吞吐量等核心指标分析、慢 SQL 分析执行计划解析、索引建议、改写方案、存储使用诊断容量增长趋势、空间优化建议、代理性能监控Proxy 层指标分析、连接路由诊断。故障排查与诊断主备切换分析Failover 原因排查、切换日志分析、非预期切换诊断、连接和会话分析连接数监控、会话问题排查、连接池优化、日志诊断错误日志分析、慢日志排查、实例状态检查健康状态、运行状态验证。参数与配置管理内核参数解释参数含义、配置建议、性能影响分析、内核参数变更评估修改前的影响评估、变更风险分析、IMCI 列存参数解释、Serverless 弹性配置。安全与合规安全配置审计白名单、SSL、安全策略审计、备份状态检查备份完成情况、保留策略、恢复时间点、高可用与灾难恢复HA 配置评估、灾备架构诊断、自增 ID 溢出检测主键溢出预警。资产与生命周期管理实例查询过滤、内核版本诊断代理层/实例层、即将到期实例查询。03、解决了哪些实际问题以下是几个典型的客户场景场景一突发性能告警的快速响应凌晨收到集群 CPU 飙升告警。传统做法是登录控制台 → 找到集群 → 查看监控 → 翻慢日志 → 分析 SQL。使用 Skill 后直接输入「分析集群 pc-xxx 最近一小时的性能问题」系统自动拉取监控、慢 SQL、活跃会话等数据输出包含根因和处置建议的诊断报告。整个过程从15 分钟压缩到 1 分钟。场景二参数变更前的风险评估某业务需要调整 innodb_buffer_pool_size但不确定对线上集群的影响。输入「评估集群 pc-xxx 调整 innodb_buffer_pool_size 到 8G 的风险」引擎会结合当前集群规格、负载特征、内存使用情况给出影响分析和建议。场景三主备切换的事后排查生产集群发生了非预期的主备切换需要快速确认是计划内还是故障触发。输入「分析集群 pc-xxx 最近的主备切换原因」Skill 自动分析切换日志、时间线、触发条件输出结论。场景四新人快速上手新加入团队的开发者对 PolarDB 的 IMCI 列存引擎、代理层路由策略不熟悉。通过自然语言提问即可获得针对具体集群配置的技术解答不再需要翻阅大量文档。场景五批量资产梳理运维需要快速查看某个地域有哪些集群即将到期、哪些集群的安全配置不合规。一条自然语言指令完成过去需要多次控制台操作才能完成的批量查询。04、安装与使用前置条件Aliyun CLI 3.3.3运行 aliyun version 确认版本号jq用于 JSON 响应解析阿里云账号及对应 RAM 权限如果 CLI 未安装或版本过低执行以下命令安装/更新curl -fsSL https://aliyuncli.alicdn.com/setup.sh | bash aliyun version # 确认 3.3.3安装步骤第一步开启自动插件安装并更新插件# [必须] 开启自动插件安装 aliyun configure set --auto-plugin-install true # [必须] 更新本地已有插件到最新版本 aliyun plugin update # 安装 DAS 插件get-yao-chi-agent API 依赖该插件的 Signature V3 支持 aliyun plugin install --names aliyun-cli-das第二步配置认证凭证该 Skill 直接复用 Aliyun CLI 的认证配置无需额外设置 AK/SK# 推荐OAuth 模式 aliyun configure --mode OAuth # 或AK 模式 aliyun configure set \ --mode AK \ --access-key-id ACCESS_KEY_ID \ --access-key-secret ACCESS_KEY_SECRET \ --region cn-hangzhou # 跨账号访问RamRoleArn 模式 aliyun configure set \ --mode RamRoleArn \ --access-key-id ACCESS_KEY_ID \ --access-key-secret ACCESS_KEY_SECRET \ --ram-role-arn acs:ram::ACCOUNT_ID:role/ROLE_NAME \ --role-session-name yaochi-agent-session \ --region cn-hangzhou第三步启用 AI-ModeAI-Mode 是 Agent Skill 执行的前置条件使用前必须启用# [必须] 启用 AI 模式 aliyun configure ai-mode enable # [必须] 设置 User-Agent 标识 aliyun configure ai-mode set-user-agent \ --user-agent AlibabaCloud-Agent-Skills/alibabacloud-polardb-ai-assistant注意每次 CLI 命令调用都必须携带 --user-agent AlibabaCloud-Agent-Skills/alibabacloud-polardb-ai-assistant 参数。第四步关闭 AI-Mode每次使用完毕后必须执行无论 Skill 执行成功、失败、异常还是用户取消在返回最终响应之前必须关闭 AI-Modealiyun configure ai-mode disableAI-Mode 仅用于 Agent Skill 调用场景不应在 Skill 停止运行后保持开启状态。使用建议在实际使用中以下几点可以显著提升诊断质量在提问中明确指定集群 IDpc- 开头和地域信息对复杂问题使用多轮对话保持上下文同账号下最大并发 2 个会话避免并行调用触发限流涉及参数变更等高风险操作时先在测试环境验证凭证通过 aliyun configure 管理不要硬编码在脚本中。安全边界该 Skill 的设计严格限定在查询和诊断范围内。它不会创建/删除集群不会变更实例规格不会购买/续费实例不会执行任何 DDL/DML 操作。所有输出仅作为技术参考生产环境的变更操作始终需要人工确认后执行。05、总结PolarDB AI 助手 Skill 将数据库运维专家的经验沉淀为可复用的 AI 技能插件通过 Aliyun CLI DAS 插件 PolarDB 智能诊断引擎的架构实现了「用自然语言完成数据库运维」的工程落地。它覆盖了性能诊断、故障排查、参数调优、安全审计等20 运维技能域同时严格保障了安全边界——只读不写、权限隔离、数据不外泄。对于正在管理 PolarDB 集群的 DBA 和开发者来说这是一个可以直接投入生产环境使用的智能运维工具。