微软开源人工智能评估框架 ASSERT,助力企业人工智能治理

发布时间:2026/6/13 8:51:48

微软开源人工智能评估框架 ASSERT,助力企业人工智能治理 微软开源人工智能评估框架随着分析师指出大多数组织在产品上线前仍未对智能体行为进行评估一款新工具进入了不断发展的人工智能测试市场。图片来源Wanan Wanan - Shutterstock 2314946181。微软开源了一个人工智能评估框架该框架可将自然语言需求转化为可执行测试这进一步推动了其在企业人工智能治理领域的发展。当前各组织在产品部署前难以系统地验证智能体行为。ASSERT 框架的功能微软在宣布发布该框架的博客文章中表示这个名为 ASSERT自适应规范驱动的评估与回归测试评分的框架能根据书面规范、产品需求和治理文档生成评估场景、数据集、指标和计分卡。微软在博客文章中写道“智能体的失败方式难以察觉。它们会偏离策略在极端情况下产生不安全的输出并且在生产环境中的表现与测试环境不同。通用基准测试无法发现这些问题因为它们并非围绕你的策略、智能体或用例构建。”该公司在博客文章中称ASSERT 无需开发人员手动创建评估套件而是将书面意图转化为可重复使用的测试并可集成到人工智能开发流程中。竞争激烈的人工智能评估市场借助 ASSERT微软进入了竞争日益激烈的人工智能评估市场该市场已有 LangChain 的 LangSmith、Braintrust、Patronus AI、Galileo、Arize AI 的 Phoenix 和 Promptfoo 等平台这些平台可帮助企业对大语言模型应用进行基准测试、监控和验证。行为测试仍不成熟此次发布正值企业迅速扩大人工智能智能体部署而正式的评估实践仍属个例而非普遍现象。高德纳Gartner高级总监分析师阿努什丽·维尔马Anushree Verma表示“实际上99% 的组织在产品上线前不会对任何人工智能智能体进行评估。”维尔马认为该行业的下一个竞争优势将较少依赖推理模型的进步而更多取决于组织在部署前对人工智能智能体进行模拟和压力测试的有效性。她说“智能体人工智能的下一个竞争壁垒不在于推理模型的复杂程度或底层架构而在于通过智能体模拟构建的训练环境的深度和真实性特别是对于关键任务部署。”高德纳估计到 2029 年受监管行业中未采用智能体模拟设计的特定领域智能体超过 75% 将无法实现价值。弗雷斯特研究公司Forrester发现企业正朝着行为评估方向发展但表示大多数组织尚未将其作为正式的生产要求。弗雷斯特首席分析师比斯瓦吉特·马哈帕特拉Biswajeet Mahapatra称“大多数企业仍处于中间阶段行为评估的应用并不一致尚未被视为正式的生产关卡。”弗雷斯特的数据显示超过 45% 的组织已经在使用人工智能智能体另有 25% 正在进行试点但许多组织因治理不成熟和运营严谨性有限在扩大规模方面仍面临困难。马哈帕特拉表示“总体而言行为评估正变得越来越重要但对大多数组织来说它仍然是临时的或由工具驱动的而非在整个生命周期中强制执行的标准化发布关卡。”人工智能评判仍需人工监督微软表示ASSERT 使用大语言模型作为评判者在公司内部验证中模型生成的评估结果与人类评审者的意见有 80% 至 90% 的一致性。马哈帕特拉称这种程度的一致性有助于实现人工智能测试的大部分自动化但不应将其视为独立的治理机制。他说“与人类评审者 80% 至 90% 的一致率表明有很强的一致性但作为治理或合规的独立控制措施是不够的。”相反企业应采用分层监督机制即人工智能大规模评估人工智能而人类则对高风险、受监管或模糊的场景保留监督责任。他补充说采购方还应关注偏差、一致性问题以及过度依赖单一模型同时作为生成器和评估者的情况。开源降低了锁定风险但未消除治理风险微软以 MIT 开源许可证发布了 ASSERT允许组织检查、修改该框架并将其集成到现有的人工智能开发工作流程中。但马哈帕特拉表示开源框架并不能消除评估中立性方面的问题。他说“以 MIT 许可证开源可减少对锁定的担忧并实现跨模型生态系统的广泛互操作性。然而这并不能完全消除信任或利益冲突问题因为原始供应商仍会影响评估标准、评分逻辑和可接受行为定义的编码方式。”他建议企业不应依赖单一的评估框架而应采用多种评估方法验证人工智能系统并保留内部评估政策的所有权。关键词人工智能IT 治理开发工具软件开发

相关新闻