Skill即服务:用Agent安全玩转云上Flink

发布时间:2026/6/5 1:27:53

Skill即服务:用Agent安全玩转云上Flink 演讲者李昊哲阿里云实时计算 Flink 产品经理内容摘要Flink Skill 是阿里云为 AI Agent 时代设计的安全操作云上Flink的能力解决了 Agent 直接调用 OpenAPI 操作生产环境时能执行但不安全的核心痛点。实测数据显示Flink Skill 可将作业反压从 99% 修复至 0%将全域巡检时间从半天缩短至 30 秒并支持多个Skill 协同完成实时数仓搭建等复杂任务。核心观点安全边界是Agent使用Skill的基础Flink Skill在大模型大脑和 API 工具手脚之间提供安全护栏和能力边界确保 Agent 操作生产环境既能干活又不闯祸对话即运维Flink运维门槛归零用户通过自然语言即可完成实例创建、作业部署、故障诊断、告警配置等全链路操作无需编码或 API 经验Flink Skill三层安全防护保障生产Confirm 门控写操作需用户确认、目标锁定防止偏移操作、Read-back 验证确认实际状态后才算成功Flink Skill与多Skill 协同Flink DMS Hologres等多个 Skill 联动一句话搭建实时数仓、多模态实时舆情分析系统等复杂场景为什么 AI Agent 时代需要 SkillAI Agent 行业在 2025 年发生了什么标志性事件2025 年底AI Agent 行业达成共识Agent 必须能操作生产环境。三大标志性事件推动了这一转变Manus刷屏引发行业对 Agent 执行能力的关注Anthropic 发布 MCPModel Context Protocol协议定义了 Agent 与工具的交互标准OpenAI 跟进发布 Function Calling生态Google 发布 A2AAgent-to-Agent协议。这些协议共同确立了 Agent 操作外部系统的技术基础。云资源操作方式经历了哪些演进阶段从控制台点击到 Terraform 编码再到 Copilot 问答、AgentOpenAPI 直接调用每个阶段都有明确的局限性。Agent 直接通过 OpenAPI 操作云资源存在严重安全风险——它能执行但没有护栏可能删错实例或改错配置。Skill 的核心价值是在 AI 可控范围内为 Agent 安装安全门和能力边界。阶段时间操作方式核心局限控制台时代2018 年前页面点击人工校验参数依赖开发者手动操作效率低IaC 时代2018-2023 年Terraform/SDK 编码需要编码能力和 API 经验门槛高Copilot 时代2023-2024 年对话式问答能回答问题但不能执行操作Agent OpenAPI2024-2025 年Agent 直接调用 API能执行但不安全无护栏无边界Agent Skill2025 年至今自然语言 Skill 安全保障当前最优解既能干活又不闯祸Flink Skill 的核心能力是什么Flink Skill 是连接 Agent 大脑与执行动作的神经中枢通过 SOP 注入将专家运维经验固化为 Agent 原生能力通过逻辑封装屏蔽工具调用复杂度。用一句话总结Memory 是 Agent 的资产工具是设备Skill 是生产工艺。Skill 如何解决 Agent 操作的安全问题Flink Skill 实现了三层生产级安全防护机制确保 Agent 操作的每一步都在可控范围内安全机制功能说明解决的问题Confirm 门控所有写操作需用户显式确认后才执行防止误操作保障用户知情权目标锁定限定 Agent 操作范围防止偏移操作防止 Agent 误操作非目标实例Read-back 验证不信任 API 返回码验证实际状态后才算成功确保操作真正生效如实例确实 RUNNINGFlink Skill 提供了哪些具体能力Flink Skill 已发布的能力覆盖从实例售卖到作业运维的全生命周期分为五层架构实例管理层Instance Management实例创建、扩缩容、生命周期全流程管理支持一句话完成实例部署控制台运维层Workspace Ops作业 SQL 开发、提交部署、日常运维全场景覆盖已在 Skill Hub 公开发布知识层Knowledge封装官网文档知识自动结构化沉淀开发时无需手动查阅参数文档诊断层Diagnose作业健康诊断、性能分析、根因定位自动生成诊断报告安全层Security三层安全防护 多 Skill 协同能力Flink Skill 有哪些典型应用场景Flink Skill 支持多端调用Flink 控制台、DataWorks Data Agent、OpenClaw、QoderWork、Qoder等等实现一次建设、多端调用、所说即所得。以下是四个已验证的生产场景。场景一作业诊断与修复——如何让 Flink 作业自动修复反压通过对话即可完成原来需要翻多个页面、逐项排查的故障诊断和修复流程。实测将作业反压Backpressure从99% 修复至 0%全程无需人工介入控制台。典型痛点Flink 作业 Failover 后日志仅一行报错根因定位如大海捞针。Checkpoint 超时、反压、数据倾斜每个问题排查方式不同半夜告警需要逐项翻查控制台日志、Metrics 和事件。Skill 解决流程用户一句话描述问题如帮我分析作业的反压问题Agent 调用 Diagnose Skill 自动诊断输出优化建议用户确认后Agent 调用 Workspace Ops Skill 调整并行度参数Agent 执行 Hot Update 使配置生效Agent 自动检测作业稳定性确认反压从 99% 降为 0%场景Demo查看视频演示 场景二全域巡检诊断——如何 30 秒完成大促前巡检一句话触发全地域 Flink 实例自动巡检30 秒生成完整巡检报告。原来需要半天时间编写脚本、对接 OpenAPI 的巡检工作现在通过多个 Skill 组合一次完成。操作方式用户输入帮我巡检所有 Flink 实例给我一个巡检报告。Agent 自动执行全地域扫描遍历所有可用区发现实例并生成包含风险建议、运行状态和诊断提示的完整报告。指标传统方式Skill 方式提升幅度巡检耗时约半天编写脚本调试执行30 秒提升约 1000 倍技能要求需要 OpenAPI 编程经验自然语言即可门槛归零覆盖范围取决于脚本质量自动全地域扫描无遗漏场景Demo查看视频演示 场景三实时数仓搭建——如何一句话搭建 Flink CDC 全增量同步链路通过Flink Skill DMS Skill Hologres Skill多 Skill 联动一句话完成从 MySQL 到 Hologres 的实时数仓搭建告别 T1 报表延迟。用户输入示例“建一个实时数仓从 MySQL 写一个 Flink CDC 作业全量和增量数据同时写到 Hologres确认链路没问题。”Agent 自动编排流程DMS Skill 在 MySQL 中创建源表如 orders 表Hologres Skill 自动创建目标库和 Sink 表完成 Schema 一致性校验Flink Skill 生成 Flink CDC 全增量一体化作业Agent 启动作业并确认 Ready 状态如发现策略异常Agent 自动修复后重新提交可选调用 CMS Skill 一键配置监控告警场景Demo查看视频演示 场景四品牌舆情实时监控——非技术人员如何搭建多模态实时分析系统6 个 Skill 协同工作Flink 实例管理、Hologres 实例管理、DMS 建表、DataWorks 作业开发、CMS 告警、DIS 性能查询让市场部同事无需写一行代码即可搭建实时舆情分析系统。**核心实现**通过 Datagen 模拟社交评论数据流调用 Flink 内置的AI_SENTIMENT函数进行实时情感分析结果写入 Hologres 后搭建实时 BI 报表展示各品牌正负面情感评分和实时评论流。关键价值用户全程无代码操作Agent 自主决定调用流程、参数传递和异常处理原来需要提工单给数据团队排期的工作现在市场部同事直接对话完成支持根据需求灵活编排组合用 Create Skill 搭积木式打造团队专属数据流水线场景Demo查看视频演示 如何开始使用 Flink SkillFlink Skill 提供两种使用入口均为开箱即用无需额外安装插件或切换工具。入口一阿里云 Skill 门户一键安装阿里云 Skill Hub 门户已上线首批69 个官方 Skill涵盖六大云领域。用户搜索后一键安装即可使用支持多云生态联动和自动化工作流编排。访问地址skills.aliyun.com入口二实时计算 Flink 版控制台内置 Skill 技能包Flink 控制台已原生内置所有 Skill 技能包开箱即用。从代码生成、故障诊断到资源调配全链路能力已内置在控制台中无需切换工具。常见问题FAQQ: 什么是 Flink SkillA: Flink Skill 是阿里云为 AI Agent 设计的安全操作Flink的能力将Flink专家运维经验固化为 Agent 可调用的能力包通过三层安全防护确保 Agent 操作生产环境的安全性。Q: Flink Skill 和直接用 Agent 调 OpenAPI 有什么区别A: 直接调 OpenAPI 没有安全护栏Agent 可能误删实例或改错配置。Flink Skill 提供 Confirm 门控、目标锁定和 Read-back 验证三层安全防护确保每一步操作可控可回退。Q: 非技术人员能使用 Flink Skill 吗A: 可以。Flink Skill 实现了对话即运维、门槛归零用户只需用自然语言描述需求Agent 自动编排底层 Skill 完成全链路操作无需编写代码或了解 API。Q: Flink Skill 支持哪些调用方式A: 支持多端调用Flink 原生控制台、阿里云 Skill Hub 门户、DataWorks Data Agent、OpenClaw、QoderWork、Qoder 等实现一次建设、多端调用。Q: 如何在阿里云上搭配使用SkillA: Flink Skill作为首批 69 个官方 Skill已在 skills.aliyun.com 上线用户可立即安装体验与Hologres、DMS等产品联动使用。写在最后Flink Skill 代表了云资源操作从人工操控到AI 安全托管的演进方向。通过将专家运维经验固化为 Skill、提供三层安全防护、支持多 Skill 协同编排阿里云实时计算 Flink 实现了让业务用户像与同事对话一样操作生产环境的目标。Flink Skill作为首批 69 个官方 Skill已在 skills.aliyun.com 上线用户可立即安装体验。Flink 实例管理 Skillskills.aliyun.com/skills/alibabacloud-flink-instance-manageFlink 控制台运维 Skillskills.aliyun.com/skills/alibabacloud-flink-workspace-ops

相关新闻