
大模型整体分类按模型能力分成判别型、生成型、推理型 3 大类企业选型时依据业务场景对应查看测评指标用来横向对比各大模型优劣。一、判别型大模型传统 AI分类 / 打分 / 预测输出类别 / 数值定位多用于风控识别、内容审核、疾病筛查、垃圾邮件分类等输出固定分类结果测评核心分类结果准不准四大核心指标 释义、公式逻辑、适用场景表格指标核心关注点通俗解释短板 适用场景Accuracy 准确率全局整体正确率正确样本 ÷ 全部样本数值越高整体效果越好整体猜对的总数占全部缺陷数据不均衡时失真例95% 样本为 A 类无脑全判 A 就能拿到 95% 高准确率但实际无效Precision 精确率不误判、不冤枉负样本少 FP 假正例模型标记为正例的样本里真正是正例的占比公式举例查出 50 封垃圾邮件10 封误判正常邮件→40/5080%抓回来的人里真小偷占比内容封禁、司法判别场景优先看避免误封合规内容、错判无罪样本FP负样本错判成正样本正常邮件标垃圾Recall 召回率不漏检、不错放正样本少 FN 假负例所有真实正例中被模型成功找出来的占比公式全部真小偷里被抓到的比例医疗诊断、金融反欺诈、灾害预警首选FN真实正例错判成负样本患病被判健康、盗刷判正常交易F1-Score精确率 召回率综合平衡值精确率、召回率调和平均值公式数值越高两项指标越均衡精准和召回的综合成绩单样本不均衡场景刚需罕见病筛查、垃圾邮件、诈骗识别案例99 封正常 1 封垃圾全判正常→准确率 99%但召回、精确率、F1 全为 0直接暴露模型缺陷真实违规 (1)、模型判违规 (1) TP真实违规 (1)、模型误判正常 (0) FN真实正常 (0)、模型判正常 (0) TN真实正常 (0)、模型误判违规 (1) FP选型快速选择口诀怕漏检癌症筛查、反诈、预警→优先 Recall 召回率怕误判内容封禁、风控处罚→优先 Precision 精确率样本分布悬殊、需要综合平衡→优先 F1 分数二、生成型大模型文案 / 对话 / 总结输出自然文本定位产品智能客服、文案生成、知识库问答RAG测评核心输出文本质量、流畅度、多样性三大测评维度3H 原则文本质量顶层标准Helpfulness 有用性回答贴合用户提问、能解决实际需求Honesty 真实性不编造虚假信息、不胡说杜撰Harmless 无害性无违规、偏见、不良引导内容通用文本量化指标算法指标衡量语句通顺、语义贴合度如 BLEU、ROUGE 等企业 RAG 专属指标面向知识库问答场景重点考核引用来源准确性、幻觉概率、召回知识库原文精准度三、推理型大模型数学 / 逻辑 / 代码 / 复杂计算题侧重逻辑推导定位数理解题、代码编写、复杂业务逻辑推演测评核心推理逻辑严谨性、最终答案正确率两大核心指标Passk 通过率多用于数学、代码测评同一个题目给模型 k 次作答机会任意一次答对即算该题通过通过率越高模型容错与解题能力越强。CoT Consistency 思维链一致性重复多次提问同一问题若模型多轮推理思考路径不一样但最终答案统一代表模型逻辑稳定、不会前后自相矛盾。「量化 CoT 执行得好不好、思考深不深」的过程指标CoT 思维链强制模型先写「分步思考、分析、推导」再出答案 → 必然拉高思考长度、膨胀率、推理耗时、纠错次数逐项对应latency 延迟CoT 会显著增加推理 token 量 →延迟变长、显卡负载升高。 同硬件下CoT 模式 latency 远大于普通问答。reasoning_len 思考量CoT 的核心就是拉长显式思考过程→ reasoning_len 大幅上升 CoT 越细致、分步越多思考长度越大。backtrack_count 纠错力回溯次数只有有完整思考过程模型才会出现「想错→发现→修正」。无 CoT 直答几乎没有回溯backtrack_count≈0复杂问题 CoT思考链条变长更容易触发逻辑自查、推翻前文 → 回溯次数显著增加 结论CoT 是观测纠错力的前提。expansion_ratio 推理膨胀率公式膨胀率 推理字数 / (最终答案字数1)CoT 把中间推理内容显性输出分子推理字数暴增分母最终答案不变 / 变化很小 →CoT 模式下膨胀率天然大幅升高。 补充高难度题 强 CoT → 膨胀率极高大量推演、试错、纠错简单题 CoT → 膨胀率中等简单走流程无深度推演总结做分类、风控、打分业务→判别模型按需选用准确率 / 精确率 / 召回率 / F1做对话、写文案、知识库问答→生成模型3H 文本质量 RAG 专项指标做数学运算、代码开发、复杂逻辑分析→推理模型Passk 思维链一致性