MaxFrame 智驾数据处理Pipeline Skill 正式发布:一句话生成智驾视频处理作业

发布时间:2026/6/5 22:55:15

MaxFrame 智驾数据处理Pipeline Skill 正式发布:一句话生成智驾视频处理作业 把视频到向量的一周开发压缩为一句描述 几分钟生成。让数据团队专注业务把 Pipeline 工程化交给 MaxFrame Skill。 你是不是也卡在这种地方凌晨两点智驾数据团队的工位上常常上演这样的对话 PM 让我们把这批舱内视频做帧级打标再加一路 Embedding最好两天能跑通…… 可是抽帧 UDF 怎么写DashScope 的 Key 谁来管OSS 鉴权过期了怎么办失败的视频怎么单独重跑‍ 光把 Pipeline 跑通就要一周业务那边还在催数据。如果你做过智驾 / 智驾 / 舱内视觉 / 多模态数据处理对这些问题一定不陌生视频抽帧每段视频几十分钟抽几万帧单机跑不动关键帧打标要接 VL 模型还要管 DashScope Key、控并发、防限流Embedding 生成图像 / 文本两路向量都要输出维度还不一样OSS / MaxCompute 多源流转路径鉴权、Bucket 配置、分区写入全都是坑失败容错一条视频炸了不能拖死整批作业还得能精准重跑每一条单拎出来都是工程活。组合在一起常常一个 Pipeline 上线就要 「一周起步」。 今天发布的MaxFrame 智驾视频 Pipeline 脚手架 Skilldriving-video-maxframe-job就是为了解决这个问题。 一句话解释它是什么这是一个面向智驾视频数据处理场景的 MaxFrame 作业脚手架生成器。✨ 你只需要描述输入表与处理目标它就能一键产出可直接在 MaxCompute / MaxFrame 上运行的完整 Pipeline 代码、表结构建议与运行手册。简单来说你说输入是视频表想要带标签和向量的图像表 ↓ Skill 自动选 Pipeline 形态、生成代码、写表结构、附运行手册 ↓ 你拿到符合 MaxFrame 最佳实践的完整作业直接提交跑 它能覆盖哪些场景智驾、智驾、舱内视觉团队最常见的 5 类需求全部内置 场景 输入 期望产出视频抽帧视频表含 OSS 路径帧图像表抽帧 打标 Embedding视频表带标签 / 向量的图像表自动拆成两段作业关键帧打标Clip 目录表带标签的关键帧表图像直接打标 / 向量化图像表标签 Embedding 表图像表追加 Embedding已标注图像表带向量列的图像表无论你是从原始视频出发还是从已经抽好的图像接入都能被覆盖到。⚡️ 用起来有多简单你只需要给 Skill四个最小输入1. 场景名scenario_name比如cabin_video_label_v12. 输入数据形态input_shape是视频表Clip 目录表还是图像表3. 处理目标targets抽帧打标Embedding还是组合4. 输出表名output_table/output_tables结果写到哪张表剩下的事Skill 全部接管✅ 自动判别该用哪种 Pipeline 形态✅ 生成主程序代码*.py✅ 编写输入 / 中间 / 输出表的 DDL*_schema.sql✅ 附上运行手册*_walkthrough.md包括所需环境变量、运行顺序、上下游表期望 如果你的描述还差一两个关键参数Skill 会主动追问而不是默默猜测。️ 内置的 5 个 MaxFrame 最佳实践这才是这个 Skill 真正的价值所在——它不是一个简单的代码模板而是把MaxFrame 在智驾视频场景下沉淀的工程经验全部内化在了生成的代码里。1. AI Function 托管百炼大模型免维护 Key打标和向量化统一走 MaxFrame 的 AI Function read_odps_model不需要自己封装 DashScope 客户端不需要在代码里管理 API Key不需要写 UDF 包装请求 / 重试 / 解析逻辑模型作为 MaxCompute 资源直接被引用✅ 鉴权、配额、并发 全部交给平台。2. 视频任务自动两段拆分如果你的目标是 “视频 → 抽帧 → 打标 Embedding”Skill 会自动把作业拆成两段作业一视频抽帧OSS 视频 → 帧图像表 ↓ 中间表落地 作业二图像打标 Embedding帧图像表 → 标签 向量表好处显而易见可复跑抽帧跑过一次后不用再跑节省 GPU 资源可复用同一份帧表可以被多个下游打标 / 向量化作业共享可观测中间结果落地便于审查和抽样验证3. OSS 挂载 Rebalance 并发控制视频读取用with_fs_mount把 OSS 挂载成本地路径并发用rebalance精准控制with_fs_mount(oss://your-bucket/videos/, /mnt/videos, ...) def extract_frames(row): # 像读本地文件一样读 OSS 视频 ... df video_df.mf.rebalance(num_partitionsN).mf.apply_chunk(extract_frames, ...)写出统一收口在to_odps_table().execute() 不会出现代码跑完了但结果没落表 这种诡异情况。4. 行级容错单条失败不拖累整批所有模型阶段输出统一携带三个标准字段️ 字段 含义statussuccess/failed行级状态error_stage失败发生在哪个阶段抽帧 / 打标 / Embedding 解析error_msg具体错误信息这意味着✅ 一条视频解码失败不会让整批作业崩✅ 失败原因精确到阶段不用瞎猜✅ 可以基于statusfailed精准重跑不重复消耗已成功的部分5. Token 用量按阶段返回成本敏感的场景Skill 默认在输出表里带上每个阶段的 token 消耗label_input_token/label_output_tokenembedding_total_token各阶段*_total_token成本归因到行级PM 问这一批数据花了多少钱时一条 SQL 就能算清。 安全与合规默认开启做企业级数据处理光跑得通还不够合规 同样关键。Skill 生成的代码默认遵守以下约定不写死任何敏感信息模型名、OSS Bucket、MaxCompute Project、密钥等全部通过环境变量配置路径安全校验拒绝..路径穿越强制保持在声明的 OSS 前缀下客户中性生成代码不含任何客户名、私有 Prompt 或业务规则可放心在团队间共享标签生成默认关闭 thinking降低 token 开销Embedding 阶段独立可按需开启 / 关闭不需要就不浪费算力 一次调用三件交付物每次调用 Skill你会拿到完整的作业三件套 output/ ├── cabin_video_label_v1.py # 主作业代码可直接提交运行 ├── ️ cabin_video_label_v1_schema.sql # 输入 / 中间 / 输出表的 DDL └── cabin_video_label_v1_walkthrough.md # 运行手册场景类型、运行顺序、所需环境变量、上下游表期望不是给你一段不知道怎么跑的代码片段而是 ✨ 从建表到提交端到端能落地 的工程交付物。 典型使用流程用户描述需求 ↓ Skill 自动判别 Pipeline 形态 ↓ 如有歧义询问缺失的最小输入 ↓ 生成代码 表结构 运行手册 ↓ 用户在 MaxCompute / MaxFrame 直接提交运行整个流程下来从想做到作业跑起来 通常只需几分钟。 什么时候用这个 Skill适用场景非常聚焦智驾 / 智驾 / 视觉数据团队需要快速搭建 “视频 → 图像 → 标签 → 向量” Pipeline想把存量的UDF DashScope 直连改造成 AI Function 托管调用希望生成的代码具备生产级行级容错和可观测性而不是只能跑 demo如果你正好是这些团队的一员✨强烈建议把这个 Skill 加入你的 AI 编程助手。✍️ 写在最后过去业务团队上线一条智驾视频处理 Pipeline至少需要1 名熟悉 Python 的开发工程师1 周以上的开发 联调时间多次踩坑 OSS 鉴权 / DashScope 限流 / 失败重试现在使用这个 Skill任何熟悉业务的同学都能描述清楚需求几分钟内拿到符合最佳实践的完整作业行级容错 成本归因默认就有不用自己造 让数据团队专注业务逻辑把 Pipeline 工程化交给 MaxFrame Skill。 这就是我们做这个 Skill 的初衷。 现在就在你的 AI 编程助手里试试吧—— 一句帮我做个把舱内视频抽帧打标的 MaxFrame 作业看看几分钟后会发生什么。相关链接MaxFrame 文档https://maxframe.readthedocs.io/en/latest/MaxFrame GitHubhttps://github.com/aliyun/alibabacloud-odps-maxframe-client智驾视频 Skill在你的项目.claude/skills/或.qoder/skills/目录中安装driving-video-maxframe-job

相关新闻