SkillNexus:开源 Skills 全生命周期创造平台

发布时间:2026/6/25 13:27:59

SkillNexus:开源 Skills 全生命周期创造平台 你写的 Skill到底有多好用打开~/.claude/skills/数一数里面有多少个文件。10 个20 个还是一堆叫不出名字的my-prompt-v3-final更难回答的问题是你知道哪个 Skill 真的好用吗大多数人的答案是凭感觉。Skill 是什么如果你用过 Claude Code、Cursor 或 Windsurf你一定接触过 Skill——一段 Markdown 文件包含 YAML frontmatter 和自然语言指令作为 system prompt 影响 AI 的行为。--- name: code-review description: 执行代码审查关注安全、性能和可读性 tags: [review, security] --- 你是一位资深工程师负责审查代码。 请按安全性、性能、可读性三个维度分析 输出问题列表和可直接替换的代码片段。这类文件可以安装到 Claude Code 的.claude/commands/、或 Cursor 的.cursorrules让 AI 在特定场景下按你的意图工作。Skill 解决了能力的载体问题——模块化、可分发、跨工具。但它没有解决这个 Skill 好不好怎么让它持续变好从写提示词到培育能力的认知跃迁传统 Skill 创建的问题不在于写法而在于缺乏闭环写完即丢没有版本管理效果好坏靠主观感受没有量化数据模型换代后只能从零调试多人协作时同一能力被反复重造Skill 标准只定义了能力的载体——如何生成、如何量化、如何持续改进依然是空白。SkillNexus 填补了这个空白。真正的问题随着 AI 工具普及开发者积累的 Skill 越来越多但面临几个共同困境写完不知道好不好——靠主观感受没有量化数据。一个 Skill 在常见任务上表现不错在边界情况下可能完全失效但你不知道。进化靠猜——改了一版感觉差不多但不知道哪个维度变好了、哪个退步了。没有对比数据优化靠直觉。模型换代后悄悄失效——Claude 升级原来调好的 Skill 可能悄悄变差你甚至察觉不到。重复造轮子——团队里三个人各自维护功能几乎相同的 code-review Skill谁也不知道哪个最好。这不是个人管理能力的问题。是Skill 开发本身缺少基础设施。SkillNexusSkill 的全生命周期平台SkillNexus 是一款桌面应用Mac / Windows把 Skill 从生成到进化的完整链路收进一个工具Home管理→ Studio生成→ TestCase用例→ Eval评测→ Evo进化→ Trending榜单每一步都不是孤立功能而是数据流转的节点Studio 生成的 Skill 进入 Home 管理TestCase 为 Skill 建立数据集Eval 产出评分Evo 消费评分产出进化版本Trending 从历史评分中聚合排行——形成完整的能力培育闭环。Studio6 种方式生成 Skill不知道怎么写 SkillStudio 给了你 6 条路模式说明描述生成用自然语言说清楚需求AI 生成完整 Skill示例归纳提供几组 Input/Output 样本AI 从中归纳行为规则对话提炼把历史对话粘贴进来把调法固化成 Skill文档提炼上传 PDF、Markdown 或 TXT从技术规范、SOP 中提炼手动编辑直接写或粘贴已有内容Agent 设计构建工具调用型 Agent Skill每种模式生成后都有实时 5D 质量预评分安装前就知道这个 Skill 大概在什么水平。Eval8 个维度量化好不好感觉好用和真的好用差的是数据。这是 SkillNexus 最核心的技术创新也是让感觉还行变成数据说话的关键。评测维度分为两组G 系列任务质量衡量 Skill 产出的结果好不好维度含义G1 · Correctness输出是否正确完成任务目标G2 · Instruction Following是否严格遵循格式和约束G3 · Safety输出是否安全、中立、无害G4 · Completeness是否涵盖所有必要内容G5 · Robustness对边界/模糊输入的鲁棒性S 系列Skill 质量衡量 Skill 本身写得好不好维度含义S1 · Executability指令是否清晰可操作S2 · Cost Awareness输出是否简洁避免 token 浪费S3 · Maintainability结构是否清晰易维护8 个维度里G 系列能告诉你Skill 有没有做对事S 系列能告诉你Skill 有没有把事做好两者的分离设计是核心洞察一个 Skill 可能任务成功率高但 token 耗费惊人也可能指令模糊但碰巧跑对了评测支持三种模式模式说明单次评测对当前版本出分对比模式A vs B 版本并排可视化差异确认进化是否有效三条件基线无 Skill 组 vs 当前版本 vs AI 生成版量化装上这个 Skill 到底增益了多少每次评测都留下历史记录雷达图、趋势折线、热力图全部可视化。Evo让 Skill 自动变好评测出了分发现 Skill 有问题之后呢SkillNexus 内置 8 种进化策略覆盖从交互式微调到全自动迭代的全场景。Studio 流式进化实时可见策略核心思路evidence外科手术式修复——把评测低分条目作为证据精准定位问题并修复strategy策略矩阵——用户指定优化目标如提升 G1S2AI 给出针对性改进方案capability能力感知编译——分析 Skill 对 AI 执行能力的要求降低门槛

相关新闻