微软推出MAI-Code-1-Flash:编码效率提升,性价比优于Claude Haiku 4.5!

发布时间:2026/6/3 8:42:38

微软推出MAI-Code-1-Flash:编码效率提升,性价比优于Claude Haiku 4.5! 最新模型探索最新的MAI模型它们专为实现现实世界的智能而设计。有MAI-Thinking-1、MAI-Code-1-Flash、MAI-Image-2.5、MAI-Transcribe-1.5等模型。MAI-Thinking-1专为解决最重要的复杂问题而构建具备强大的推理能力在SWE-Bench Pro测试中取得优异成绩且价格适中。MAI-Code-1-Flash借助集成于GitHub Copilot和VS Code的轻量级智能模型助力工程团队更快地编写更优质的代码。MAI-Image-2.5根据任意文本或照片提示创建令人惊叹、可直接用于设计的图像以较低的价格获得同类最佳的Arena ELO评分。MAI-Transcribe-1.5将嘈杂的音频转化为精确的特定领域转录文本在FLEURS和人工分析准确性评分方面处于领先地位。特色故事来自团队的最新突破和更新有打造爬坡机器推出七个新的MAI模型、MAI-Image-2.5在Arena图像编辑排名中位居第二、介绍MAI-Code-1-Flash等故事。介绍MAI-Code-1-Flash2026年6月2日微软推出MAI-Code-1-Flash这是一款全新的微软编码模型旨在为开发者日常工作流程提供快速、高效的帮助。它由微软使用干净且经过适当授权的数据端到端构建而成。该模型正在逐步向Visual Studio Code中的GitHub Copilot个人用户推出可在模型选择器和默认自动选择器中使用。功能和能力可在真实的开发者环境中实现智能编码经过专门训练和设计能与GitHub Copilot更好地协同工作具备自适应思维对于简单请求能简洁回应对于复杂任务则投入更多推理资源在单轮和多轮场景中都能出色地遵循指令。MAI-Code-1-Flash的设计目标是以更高的效率提供高质量的编码帮助在各项编码基准测试中它的性价比优于Claude Haiku 4.5。为开发者打造而非为基准测试编码模型只有在开发者日常使用的环境中表现出色才具有实际价值。因此构建MAI-Code-1-Flash时以实际生产工作流程为核心而非仅仅优化基准测试表现。该模型直接使用生产环境中的GitHub Copilot工具进行训练使其能够学习如何在智能编码任务中与周围的工具和系统进行交互。与其他现有模型相比它更适合实际的Copilot工作流程。在训练过程中针对核心软件工程任务、代码库问答、代码重构以及基于实际GitHub Copilot使用情况调整的遥测任务对检查点进行了评估。训练、评估和生产之间的这种一致性有助于将离线改进转化为实际的开发者体验提升。旨在实现每个令牌的价值最大化MAI-Code-1-Flash在训练中采用了自适应解决方案长度控制这有助于模型根据任务调整响应深度。对于简单请求它能简洁回应对于需要更深入分析或更广泛代码更改的问题它会投入更多推理资源。在实际应用中这意味着开发者能更快地获得有用的输出。发现MAI-Code-1-Flash解决较难问题时令牌使用量最多可减少60%。这有助于降低延迟、减少成本、提高令牌回报率并使交互工作流程更加流畅。生产环境中的基准测试结果为了评估质量和效率使用开发者日常编码任务所使用的相同生产环境在SWE-Bench Verified、SWE-Bench Pro、SWE-Bench Multilingual和Terminal Bench 2上对MAI-Code-1-Flash和Claude Haiku 4.5进行了评估。测量了任务成功率和完成每个任务所需的平均解决方案令牌数。MAI-Code-1-Flash在所有测试的核心编码基准测试中均优于Claude Haiku 4.5在所有4项评估中通过率都更高在SWE-Bench Pro的多样化实际任务中领先16个百分点51.2%对35.2%。它不仅更智能而且更高效在SWE-Bench Verified上解决较难问题时令牌使用量最多可减少60%这证明了更高的准确性和更高的效率不再是相互权衡的关系。数学、科学、指令遵循和智能编码任务MAI-Code-1-Flash在表格中的每个基准测试中都领先在IF Bench精确指令遵循方面领先幅度最大28.9在基于评分标准的Advanced IF方面领先幅度最小14.5。强大的指令遵循能力也延伸到了智能工具的使用上。此外MAI-Code-1-Flash在数学、科学和视觉生成编码的核心推理能力方面也优于Claude Haiku。

相关新闻