
【利益相关声明】本文由杭州佑护公司创业团队撰写我们开发了质鉴质鉴-佑护AI提示词平台 · 跨模型中立评测引擎——一个跨模型提示词评测平台。公司主体为杭州佑护产品定位是中立评测不卖模型、不卖算力。一、你有没有遇到过这种情况你写了一条提示词扔给 DeepSeek返回的结果还行。但你又想如果换成豆包呢换成千问呢会不会结果更好然后你打开豆包网站复制粘贴同一句话再打开千问再粘贴一次三个结果摆在面前凭感觉判断「这个好像好一点」这就是大多数 AI 用户的日常——知道有更好的模型但不知道哪个更适合自己的任务。二、问题不止「选模型」更深层次的问题是你写的提示词本身就不好。大白话丢进去AI 回复自然泛泛而谈。但你又不知道专业的提示词应该怎么写。无法量化比较。「这个好一点」是多少哪个维度好下次换一个任务呢模型厂商不会告诉你。豆包的优化工具只测豆包千问的 Playground 只测千问。这就像让运动员同时当裁判难免有偏向。三、质鉴做了什么一句话你把大白话需求丢进来它帮你生成专业提示词然后同时跑几个模型做对比告诉你哪个更适合。核心流程你写「帮我写护肤品小红书文案」→ AI 生成带变量的专业模板 → 你填好产品名和目标人群 → 选择 DeepSeek / 豆包 / 千问 → 并行调用 → 对比结果出炉不是一个玩具是一个完整的提示词工作流优化引擎大白话变结构化模板自动标注可替换变量如 {{产品名}}、{{目标人群}}跨模型评测同一模板、同一组变量同时跑最多 3 个模型四维评分任务完成度、格式规范度、模型适配度、落地实用性每项 0-10 分四、四维打分具体怎么判很多读者关心「AI 评价 AI 靠不靠谱」这里展开说一下评测引擎的核心是一套打分体系不是随便给的分数。每个维度0-10 分都有具体锚点维度说明高分标准示例任务完成度AI 有没有准确完成意图输出完整命中任务目标无遗漏无跑偏格式规范度输出格式是否清晰可解析明确指定 JSON/Markdown有模板和示例模型适配度写法是否符合大模型理解习惯有角色设定分步骤分隔符上下文落地实用性结果能不能直接用输出可直接使用无需二次编辑为保证一致性temperature ≈ 0消除随机性评分协议有版本号优化和评测用双引擎独立打分互校。当然有局限性——同一提示词两次评分可能有 0.5-1 分波动对高度专业领域医疗、法律判断力有限。我们会在未来引入多模型交叉验证和人工抽检校准。五、为什么不卖提示词很多人第一反应这是一个卖提示词模板的平台吧不是。词库里 150 条提示词长期免费覆盖 6 个行业可以直接浏览、搜索、一键复制。免费词库是评测引擎的展品不是商品。质鉴的核心价值在评测引擎——帮你判断提示词好不好、哪个模型更适合你的任务。卖提示词是一次性买卖你买完我就不赚了帮用户持续优化提示词、持续评测效果才是真正的价值。六、技术栈给开发者看的全栈 TypeScript前后端分离后端Node.js 24 Express SQLiteWAL 模式零编译依赖前端React 18 Vite Ant Design 5深色主题AI 调用OpenAI 兼容 API 通用适配器可接任何兼容模型安全helmet httpOnly Cookie SHA-256 API Key per-key 速率限制部署阿里云 ECS Nginx PM2平台提供 REST API/v1/test、/v1/test/compare、/v1/test/batch企业可以通过 API Key 把评测引擎嵌入自己的系统或 CI/CD 流程。七、当前状态和定价产品刚刚跑通 C 端闭环目前✅ 提示词优化 多模型评测 四维评分✅ 豆包已接入⏳ 通义千问待接入当前已接 DeepSeek V4 Pro 和 V4 Flash 图片/视频评测预留UI 可见功能开发中定价Free 免费 Pro ¥29.9/月。觉得值再付费数据永久保留。