、FlagRelease、FlagPerf 三大工具)
下面把KernelGen、FlagRelease、FlagPerf 三大工具整理成一页速览并给出最快上手调用步骤含命令/示例。一、三大工具速览核心能力适用场景FlagOS众智FlagOS的“三大工具”指其3个开源工具平台常与“四大核心技术库”合称“43”架构。1. KernelGen — 算子自动生成工具全球首个支持多芯片的Triton算子自动生成平台。一句话描述用AI生成高性能算子分钟级完成跨芯片适配。能力输入算子逻辑描述自动生成Triton代码、验证正确性、评测性能支持英伟达、华为、海光等多芯片。2. FlagRelease — 大模型自动迁移发版平台一站式大模型跨芯片适配、优化与发布工具。一句话描述一次模型开发自动发布到所有主流AI芯片。能力自动完成环境诊断、算子替换、精度/性能调优、容器化发布已适配DeepSeek、Qwen、混元等数十个模型。3. FlagPerf原名九鼎平台— 多芯片评测工具面向异构算力的大模型性能与精度评测平台。一句话描述统一基准公平对比不同芯片上的模型表现。能力提供标准化评测流程覆盖推理/训练性能、显存占用、精度对齐等维度支持18家厂商32款芯片的横向对比。补充四大核心技术库“43”里的“4”FlagScale异构并行训推框架FlagGems高性能通用算子库全球最大Triton算子库FlagTree统一AI编译器Triton增强版FlagCX跨芯片统一通信库1KernelGen算子自动生成定位AI 生成高性能算子跨芯片自动适配一句话写逻辑 → 自动生成 Triton 代码 → 多芯片编译验证测速适合算子开发、新芯片适配、性能调优支持英伟达、华为昇腾、海光、寒武纪等2FlagRelease大模型自动迁移发版定位一次开发多芯片一键部署一句话自动诊断环境 → 算子替换 → 精度/性能调优 → 容器化发布适合模型落地、多芯片版本管理、快速上线支持Qwen、DeepSeek、混元、MiniCPM 等 70 模型3FlagPerf多芯片评测原九鼎定位统一基准公平对比各芯片训推性能一句话一键跑标准任务 → 输出吞吐/时延/显存/精度报告 → 横向对比适合芯片选型、性能对比、验收测试支持18 家厂商、32 款芯片二、快速调用方法从安装到跑通 前置统一环境准备Ubuntu 示例# 1. 基础依赖sudoaptupdatesudoaptinstall-ypython3-pip python3-devgitcmake# 2. 安装 FlagOS 核心必装gitclone https://github.com/flagos-ai/FlagGemscdFlagGemspipinstall-e.gitclone https://github.com/flagos-ai/vllm-plugin-FLcdvllm-plugin-FLpipinstall-e.1KernelGen 快速调用2 种方式方式 A网页版最快无需装环境打开https://kernelgen.flagos.io/login注册/登录拿到Bearer Token输入算子逻辑如“矩阵乘biasgelu”点生成 → 自动输出 Triton 代码性能报告方式 B本地/AI Agent 调用Claude Code 示例# 1. 安装 KernelGen Skillnpx skillsaddflagos-ai/skills--skillkernelgen-flagos--global# 2. 在 Claude Code 直接用自然语言触发# 对话输入# /kernelgen 生成一个支持昇腾/英伟达的 layer_norm 算子2FlagRelease 快速调用3 步部署模型以Qwen3-4B 寒武纪为例其他芯片同理。步骤 1下载 FlagRelease 适配好的模型pipinstallmodelscope modelscope download--modelQwen/Qwen3-4B--local_dir./qwen3-4b步骤 2拉取官方镜像含优化算子dockerpull120.92.210.157/flagrelease/cambricon_vllm083_gemsreleasev1_0_0dockerrun-d\--nameflagos\--nethost--ipchost\-v/home:/home\120.92.210.157/flagrelease/cambricon_vllm083_gemsreleasev1_0_0步骤 3一键启动服务OpenAI 兼容 API# 进入容器dockerexec-itflagosbash# 启动推理服务flagscale serve qwen3_4b--port9010# 调用任意 OpenAI 客户端curlhttp://localhost:9010/v1/chat/completions\-HContent-Type: application/json\-d{model:qwen3_4b,messages:[{role:user,content:你好}]}}3FlagPerf 快速调用一键评测步骤 1克隆 FlagPerfgitclone https://github.com/flagos-ai/FlagPerfcdFlagPerf pipinstall-rtraining/requirements.txt步骤 2一键启动评测推理训练# 推理评测默认跑 5 个模型python base/run.py--modeinference--chipnvidia# 训练评测python training/run_benchmarks/run.py--chipascend# 输出结果自动生成 report.html 对比表格三、组合使用建议工作流KernelGen开发/优化关键算子 → 生成多芯片代码FlagRelease用优化后的算子自动迁移模型 → 发布容器FlagPerf在目标芯片上跑评测 → 验证性能/精度要不要我给你一份“最小验证集”脚本包含 KernelGen 示例算子、FlagRelease 一键部署脚本、FlagPerf 最小评测配置你直接复制就能跑通全流程