
一、面试题目请讲解AI Agent Skill 全维度评估体系包含成功率、执行耗时、调用成本、稳定性、用户满意度说明指标定义、计算口径、评估方法、优化方向。二、知识储备整体思路Skill 评估是上线、迭代、下线、评分的核心依据从业务可用、性能、成本、稳定、体验五大维度量化打分实现优胜劣汰。1. 成功率核心业务指标指标定义公式成功率 成功执行次数 ÷ 总调用次数 × 100%成功标准业务闭环完成退款成功、判责完成、信息获取完整失败分类参数缺失、格式错误、业务异常、超时熔断、模型幻觉、下游工具失败评估与优化低于阈值如95%预警低于90%强制优化/下线优化完善参数校验、异常兜底、重试机制、幻觉拦截2. 执行耗时性能指标指标定义统计平均耗时、P95、P99 耗时拆分冷启动耗时、工具调用耗时、推理耗时、IO耗时、编排耗时评估与优化实时业务类 P95 2s复杂业务 P95 5s优化预热预加载、并行IO、缓存、减少串行调用、推理加速3. 调用成本商业化运维指标指标定义大模型成本Token 消耗输入输出资源成本向量检索次数、数据库查询、接口调用次数人力成本维护成本、异常处理成本评估与优化单位任务 Token 越少越优优化精简上下文、缓存热点数据、减少冗余检索、复用中间结果4. 稳定性工程质量指标核心子指标异常率超时、熔断、报错占比重试率网络抖动重试次数幻觉率模型编造参数、越权指令次数可用性7×24 可用率租户隔离稳定性单租户故障不扩散评估与优化幻觉率 3% 重点治理优化熔断降级、幂等、超时控制、强格式约束5. 用户满意度体验指标数据来源客观用户后续是否再次提问、是否转人工、会话闭环率主观星级评分、反馈标签不准确、太慢、听不懂、太繁琐业务侧投诉率、资损率、纠纷率评估与优化闭环率越高、转人工率越低满意度越高优化流程简化、话术友好、反问精准、步骤精简6. 综合评分模型企业常用综合得分 成功率×40% (1−P95耗时/阈值)×20% (1−单位成本)×15% (1−异常率)×15% 满意度×10%高分推荐、低分预警、低分下线。三、代码/埋点示例# Skill 执行后埋点上报评估指标 monitor.record( skill_idaftersale_refund_order, successis_success, cost_tokentoken_used, durationcost_time, hallucinationhas_hallucination, user_feedbackscore )四、破局之道面试升华Skill 评估核心是可量化、可对比、可迭代。通过成功率看业务可用、耗时看性能、成本看效率、稳定性看工程质量、满意度看真实体验形成完整闭环指导 Skill 持续优化、灰度迭代、优胜劣汰实现 Agent 平台规模化高质量交付。30秒口述精简版Skill 从成功率衡量业务可用性耗时衡量性能成本衡量资源效率稳定性衡量工程质量用户满意度衡量真实体验通过综合评分模型实现技能迭代、预警与淘汰。