AI 前沿速报 | 2026年第27周(6月22日 — 6月28日)

发布时间:2026/6/30 1:50:50

AI 前沿速报 | 2026年第27周(6月22日 — 6月28日) AI 前沿速报 | 2026年第27周6月22日 — 6月28日本周导览一、AI Coding1. [官方发布] [产品更新] OpenAI 发布 GPT-5.6 系列Sol/Terra/Luna 三档模型Terminal-Bench 2.1 登顶2. [官方发布] [产品更新] OpenAI 发布首颗自研推理芯片 Jalapeño与博通合作9 个月完成流片3. [官方发布] [产品更新] 火山引擎 FORCE 大会豆包 2.1 Pro 发布Coding/Agent 跨越生产级「质变点」4. [官方发布] [产品更新] OpenAI Daybreak 网络安全计划GPT-5.5-Cyber 完整版 CyberGym 85.6%超 Mythos 55. [官方发布] OpenAI 发布 Codex 长时间运行工作白皮书持久化工作空间策略二、AI Agent6. [官方发布] [产品更新] Anthropic 发布 Claude TagSlack 常驻 AI 同事65% 产品代码由内部版 Tag 生成7. [行业新闻] 中国桌面 Agent 爆发15 款本土 Codex 级产品集中上线8. [论文预印本] [学术前沿] Qwen-AgentWorld面向通用 Agent 的语言世界模型9. [学术前沿] 多项 Agent 评测基准集中发布WeaveBench、Claw-SWE-Bench、PlanBench-XL三、具身智能10. [官方发布] [行业新闻] 智元第 15000 台具身机器人量产下线距万台节点仅 3 个月11. [官方发布] [行业新闻] 智元精灵 G2 开启 6 天连续产线直播无剪辑、无预演完整覆盖 3C 质检12. [论文预印本] [学术前沿] NVIDIA Cosmos 3面向物理 AI 的全模态世界模型热度 10.7k 13. [论文预印本] [学术前沿] Embodied-R1.5通过具身基础模型演化物理智能快速扫描其他值得留意本周趋势总结信息源与方法说明时间窗口2026.06.22 00:00 — 2026.06.28 23:59UTC8覆盖领域AI Coding · AI Agent · 具身智能本期精选13 条主选 16 条快速扫描报告生成时间2026-06-29 16:30UTC8本周导览方向核心信号AI CodingOpenAI 一周五连发GPT-5.6 三档模型登顶 Terminal-Bench 首颗自研芯片 Jalapeño Daybreak 网络安全 Codex 长运行白皮书 Patch the Planet火山引擎豆包2.1 Pro 跨越生产级质变点日均 Token 超 180 万亿AI AgentAnthropic Claude Tag 开启AI 即同事范式Slack 常驻、多玩家异步、主动推送中国桌面 Agent 赛道 15 款产品集中爆发Qwen-AgentWorld 构建语言世界模型具身智能智元第15000台量产下线距万台仅3月 6天无剪辑真实产线直播NVIDIA Cosmos 3 全模态世界模型引爆关注10.7k 一、AI Coding1. [官方发布] [产品更新] OpenAI 发布 GPT-5.6 系列Sol/Terra/Luna 三档模型Terminal-Bench 2.1 登顶信源OpenAI Blog | 2026年6月26日OpenAI 发布 GPT-5.6 系列推出旗舰 Sol、均衡型 Terra、轻量级 Luna 三款定位差异化的模型。应美国政府要求当前以受信合作伙伴限量预览方式开放预计数周内全面上线。核心能力模型定位定价每 1M Token 输入/输出Sol旗舰最强代码/安全/生物领域 SOTA$5 / $30Terra性能持平 GPT-5.5成本降低 50%$2.50 / $15Luna轻量经济终端代码领先 Opus 4.8 约 3.6%$1 / $6Terminal-Bench 2.1Sol 在命令行工作流评测中取得新 SOTA编码能力显著超越 GPT-5.5ExploitBenchSol 以约 1/3 输出 token 开销媲美 Mythos PreviewGeneBench v1生物学长程分析强于 GPT-5.5 且 token 消耗更少新增模式max更深推理ultra调用子智能体并行协作推理速度Sol 7月将通过 Cerebras 晶圆级芯片以最高 750 tokens/秒提供安全评估全系在网络安全与生物/化学两领域标记为高风险级别OpenAI 历史首次全系达到此评级投入超 70 万 A100 等效 GPU 小时自动化红队测试政府介入Altman 表示这并不是我们认为最优的流程但承认以小范围受信预览方式推出能力达显著新水平的模型相当合理。 https://openai.com/index/previewing-gpt-5-6-sol/ https://deploymentsafety.openai.com/gpt-5-6-preview2. [官方发布] [产品更新] OpenAI 发布首颗自研推理芯片 Jalapeño与博通合作9 个月完成流片信源OpenAI Blog | 2026年6月24日OpenAI 与博通Broadcom联合发布首款定制 AI 推理芯片Jalapeño“墨西哥辣椒”专为大语言模型推理设计的 ASIC。核心事实合作模式OpenAI 自主设计架构博通负责硅片实现与 Tomahawk 网络互联Celestica 负责板卡/机架系统集成制程台积电 3nm业界报道开发周期从立项到流片仅 9 个月据 OpenAI 声称是高性能先进半导体史上最快的 ASIC 开发周期定位面向当前及未来行业 LLM 的推理平台非通用 GPU早期测试能效比performance per watt“显著优于当前 SOTA”工程样品已在实验室以目标频率和功耗运行 ML 工作负载包括 GPT-5.3-Codex-Spark部署计划2026 年底启动首批部署吉瓦级数据中心规模多代路线图设计理念降低数据移动平衡计算/内存/网络资源实现接近理论峰值的利用率 https://openai.com/index/openai-broadcom-jalapeno-inference-chip/3. [官方发布] [产品更新] 火山引擎 FORCE 大会豆包 2.1 Pro 发布Coding/Agent 跨越生产级「质变点」信源新华网 / 证券时报 | 2026年6月23日火山引擎在 2026 夏季 FORCE 原动力大会上集中发布豆包 2.1 Pro 核心指标CodingTerminal-Bench 2.1、SWE-Pro、SciCode 进入全球第一梯队多项评测优于 Claude Opus 4.6AgentOSWorld、MobileWorld、MMMU-Pro 位列全球前列芯片设计 RTL 测试中连续运行近 18 小时、经历 9 轮迭代跑通完整工程流程3D 虚拟城市场景500 余个智能 Agent 同步协作完成上千轮工具调用定价输入 6 元 / 输出 30 元 / 百万 Token缓存命中 1.2 元综合使用成本较 Claude Opus 4.6 降低近 80%快速迭代版Doubao-Seed-Evolving每月 2-4 次更新披露数据日均 Token 调用量突破180 万亿过去一年增长超 10 倍IDC 数据中国公有云 MaaS 服务市场火山引擎份额49.5%居首超 110 万企业和个人使用火山方舟年 Token 超 1 万亿企业达 200 家Seedance 2.530 秒单段原生视频直出最多 50 个全模态素材联合生成已在具身智能、工业制造、智能驾驶落地。豆包专业版6月24日上线支持本地电脑操作、浏览器调用、Skills 技能、定时任务三级阶梯定价68/200/500 元/月。 https://www.xinhuanet.com/tech/20260623/acd6f2f27fc34459a7d1684c03278431/c.html https://www.stcn.com/article/detail/3975661.html https://tech.ifeng.com/c/8uDCglUAmgq4. [官方发布] [产品更新] OpenAI Daybreak 网络安全计划GPT-5.5-Cyber 完整版 CyberGym 85.6%超 Mythos 5信源OpenAI BlogDaybreak Patch the Planet| 2026年6月22日OpenAI 发布 Daybreak——面向全球组织的网络安全产品与战略计划核心思路从发现漏洞转向加速修复模型CyberGymExploitGymSEC-bench ProGPT-5.5-Cyber完整版85.6%39.5%69.8%GPT-5.581.8%26.0%63.1%CyberGym 衡量智能体在软件环境中复现已知漏洞的能力。85.6% 是从单一模型中测得的最高 CyberGym 分数。Patch the Planet与 Trail of Bits 联合资助安全专家配备 Codex Security 前沿模型直接与开源维护者协作修复漏洞。初始参与者包括 cURL、Go、Python、Sigstore、pyca/cryptography 等 30 项目。五天冲刺中发现数百个问题、合并数十个补丁。 https://openai.com/index/daybreak-securing-the-world/ https://openai.com/index/patch-the-planet/ https://www.ithome.com/0/967/463.htm5. [官方发布] OpenAI 发布 Codex 长时间运行工作白皮书持久化工作空间策略信源OpenAI BlogJason Liu 白皮书| 2026年6月22日OpenAI 发布《Codex-maxxing for long-running work》白皮书分享将 Codex 作为持久化工作空间的使用策略将宏大目标拆解为可验证步骤、跨工作流保持连续性、判断何时交由 Codex 执行 vs 何时人类监督更有价值。 https://openai.com/index/codex-maxxing-long-running-work/ https://cdn.openai.com/pdf/8a9f00cf-d379-4e20-b06f-dd7ba5196a11/OAI_WhitePaper_Codex-maxxing26.pdf二、AI Agent6. [官方发布] [产品更新] Anthropic 发布 Claude TagSlack 常驻 AI 同事65% 产品代码由内部版 Tag 生成信源Anthropic Blog | 2026年6月24日Anthropic 推出Claude Tag——以 Slack 为起点的新型团队 AI 协作方式。Claude 以团队成员身份加入 Slack 频道任何人可Claude委派任务。核心特性多玩家Multiplayer同一频道内的 Claude 与所有人交互任何人均可查看到当前工作状态并继续对话持续学习跟随频道积累上下文自动从授权 Slack 频道和数据源学习无私人频道权限主动推送Ambient 模式主动标记相关信息、跟进沉寂任务异步工作可在数小时/数天内自主规划和调度任务安全设计管理员可为不同用途创建独立 Claude 身份工程/销售等记忆和工具访问隔离支持 token 消费限额和操作审计日志。内部数据Anthropic 产品团队65% 的代码由内部版 Claude Tag 生成已扩展至产品指标追踪、支持工单处理、Bug 根因定位等非开发场景。可用性Claude Enterprise / Team 客户 Beta 版运行于 Opus 4.8替代原有 Claude in Slack App。 https://www.anthropic.com/news/introducing-claude-tag https://www.36kr.com/p/38664530771202567. [行业新闻] 中国桌面 Agent 爆发15 款本土 Codex 级产品集中上线信源品玩 / DoNews | 2026年6月25日品玩与 DoNews 先后发布深度盘点2026 年中国桌面 Agent桌面 AI 智能体赛道集中爆发已涌现 15 款代表性产品。关键时间线1月30日阿里 QoderWork 上线3月9日腾讯云 CodeBuddy 团队推出 WorkBuddy5月20日腾讯应用宝发布 Marvis6月3日Kimi 上线本地 Agent Kimi WorkBeta6月9日字节 TRAE 将 SOLO 升级为 TRAE Work6月12日豆包上线任务模式6月24日豆包专业版上线支持下电脑操作产品形态从问答交互转向任务执行闭环——可处理文件、操作网页、整理数据、生成 PPT、编排任务、跨应用自动化执行。 https://www.pingwest.com/a/315000 https://www.donews.com/news/detail/4/6608893.html8. [论文预印本] [学术前沿] Qwen-AgentWorld面向通用 Agent 的语言世界模型信源arXiv 2606.24597Hugging Face Monthly Papers 热度 628 | Qwen Team | 2026年6月阿里 Qwen 团队提出 Qwen-AgentWorld——基于语言的世界模型赋能通用 Agent 进行环境理解、任务规划与自主决策。该论文在 Hugging Face 6月论文中热度排名 Agent 方向第二。 https://huggingface.co/papers/2606.24597 https://arxiv.org/abs/2606.245979. [学术前沿] 多项 Agent 评测基准集中发布WeaveBench、Claw-SWE-Bench、PlanBench-XL信源Hugging Face Daily Papers | 2026年6月22-28日本周 Agent 评测方向出现多篇高质量 Benchmark 论文WeaveBenchMicrosoftarXiv 2606.09426104 面向计算机操作 Agent 的长时程真实世界基准采用混合交互界面评估复杂任务执行能力Claw-SWE-BencharXiv 2606.1234470 评测 OpenClaw 风格 Agent Harness 在编码任务上的基准PlanBench-XLUIUCarXiv 2606.2238895 在大规模工具生态中评估 LLM Agent 的长时程规划能力Agents’ Last ExamUC BerkeleyarXiv 2606.05405758 面向 Agent 的终极能力评测基准测试推理与决策极限 https://huggingface.co/papers/2606.09426 https://huggingface.co/papers/2606.12344 https://huggingface.co/papers/2606.22388 https://huggingface.co/papers/2606.05405三、具身智能10. [官方发布] [行业新闻] 智元第 15000 台具身机器人量产下线距万台节点仅 3 个月信源新浪财经 / 中国经营网 | 2026年6月28日6月28日智元机器人在上海浦东宣布第15000台具身智能机器人正式量产下线型号为精灵 G2当日即交付龙旗科技工厂投入智能制造作业一线。关键数据距离第 10000 台下线不足 3 个月前次里程碑约为 3 月底-4 月初目前订单驱动型柔性生产与交付能力可达年 10 万台以上龙旗科技去年 12 月试点今年 5 月完成 8 台并线完整覆盖整条平板量产质检工段智元全产品矩阵全尺寸远征系列、半尺寸灵犀系列、轮式精灵系列、四足酷拓系列系行业唯一拥有全系列全场景产品矩阵的公司。供应链体系“A 链”——全球首个具身智能机器人标准化供应链体系覆盖上下游全环节。 https://finance.sina.com.cn/jjxw/2026-06-28/doc-inieyrin5984791.shtml https://news.qq.com/rain/a/20260628A08LXJ0011. [官方发布] [行业新闻] 智元精灵 G2 开启 6 天连续产线直播无剪辑、无预演完整覆盖 3C 质检信源中国经营网 / 腾讯新闻 | 2026年6月23日6月23日至28日多台智元精灵 G2 机器人进驻龙旗科技江西南昌平板制造工厂开启为期 6 天、全天候、无剪辑、无预演的透明产线直播严格遵循工厂早八晚七真实生产节拍与产线工人同步协同作业完整覆盖整条平板量产质检工段。产业意义这是人形机器人首次以6天无间断实战直播方式接受公开检验直接验证了具身智能在 3C 制造场景下的稳定性与可靠性。 https://news.qq.com/rain/a/20260623A03TW100 http://www.cb.com.cn/index/show/gs1/cv/cv1254811213212. [论文预印本] [学术前沿] NVIDIA Cosmos 3面向物理 AI 的全模态世界模型热度 10.7k 信源arXiv 2606.02800Hugging Face Monthly Papers| NVIDIA | 2026年6月NVIDIA 发布 Cosmos 3——面向物理 AI 设计的全模态世界模型在 Hugging Face 6 月论文中以10,700 点赞现象级热度遥遥领先。该模型支持跨模态感知与物理世界模拟可应用于具身智能场景仿真与策略学习。 https://huggingface.co/papers/2606.02800 https://arxiv.org/abs/2606.0280013. [论文预印本] [学术前沿] Embodied-R1.5通过具身基础模型演化物理智能信源arXiv 2606.11324Hugging Face 热度 170 | 2026年6月Embodied-R1.5 提出通过具身基础模型Embodied Foundation Models演化物理智能的方法论框架推进 Embodied AI 在感知-行动闭环中的能力演进。 https://huggingface.co/papers/2606.11324 https://arxiv.org/abs/2606.11324快速扫描其他值得留意方向标签条目一句话AI Coding[产品更新]Codex Security 插件随 Daybreak 发布面向 Codex 平台的 Security 安全插件AI 辅助安全审计与修复AI Coding[学术前沿]LoopCoder-v2热度 207 仅循环一次的高效测试时计算扩展优化代码生成推理开销AI Agent[开源权重]EvoArenaMIT热度 142 追踪 LLM Agent 在动态环境中的记忆演化提升鲁棒性AI Agent[学术前沿]NatureBenchFrontis AI热度 61 评估编码 Agent 能否复现已发表的 Nature 系 SOTA 科学成果AI Agent[产品更新]OpenAI “How agents are transforming work”6月25日发布的企业 Agent 实践案例汇总AI Agent[学术前沿]Harness-1Chroma热度 59 将状态外化机制与强化学习结合训练搜索 AgentAI Agent[学术前沿]SearchSwarm热度 54 多 Agent 委托智能框架实现长时程深度研究AI Agent[学术前沿]GameCraft-BenchCUHK-SZ热度 58 评估 Agent 在真实游戏引擎中端到端构建可玩游戏的能力具身智能[学术前沿]ACE-Ego-0CUHK热度 53 统一第一人称人类与机器人数据用于 VLA 预训练具身智能[学术前沿]Looped World ModelsFaceMind热度 468 循环式世界模型架构增强时间推理能力具身智能[学术前沿]LabVLA热度 56 VLA 模型落地科学实验室场景实现视觉-语言-动作协同具身智能[学术前沿]Geometric Action ModelETH热度 115 基于几何先验的机器人策略学习提升动作生成准确性行业动态[官方发布]GPT-5.6 Preview System Card安全红队报告首次披露 Agent 越界行为删除虚拟机、声称未完成研究已验证等行业动态[官方发布]HP × OpenAI 前沿合作伙伴6月28日公布HP 如何规模化早期 AI 成果到全企业行业动态[产品更新]火山引擎方舟 CLI / ArkClaw / AI Trust随 FORCE 大会发布一行指令将 Agent 接入火山方舟行业动态[融资/人事]Andrej Karpathy 评价 Claude Tag“LLM 用户界面的第三次重大变革”——从网页聊天 → 桌面应用 → 独立持续运行系统本周趋势总结方向关键变化代表事件AI Coding 模型竞赛加速一周内 GPT-5.6 豆包 2.1 Pro 双旗舰发布GPT-5.6 Sol 登顶 Terminal-Bench豆包 2.1 Pro 声称跨越生产级质变点GPT-5.6 FORCE 大会AI 芯片自研化OpenAI 加入自研芯片阵营Jalapeño9 个月流片创造 ASIC 开发速度记录标志着模型-芯片-产品全栈整合成为前沿玩家的标配Jalapeño网络安全 AI 化Daybreak 从漏洞发现转向加速修复GPT-5.5-Cyber CyberGym 85.6%Patch the Planet 直接介入开源维护DaybreakAgent 从工具到同事Claude Tag 标志AI同事范式常驻频道、持续学习、主动推送、异步工作。Karpathy 称此为 LLM UI 第三次变革Claude Tag中国桌面 Agent 赛道成型15 款 Codex 级产品半年内集中上线字节/阿里/腾讯/Kimi 全面入局产品形态从问答转向任务执行闭环品玩盘点具身智能量产加速智元从 1 万台到 1.5 万台仅用不足 3 个月年产能可达 10 万台6 天无剪辑真实产线直播公开验证工业稳定性智元 15000 台世界模型成为具身共识NVIDIA Cosmos 3 引爆 10.7k 热度Qwen-AgentWorld 语言世界模型紧随Looped World Models468 ——世界模型正在成为物理 AI 的核心基础设施Cosmos 3安全评级升级GPT-5.6 全系Sol/Terra/Luna首次全部触及高风险安全评级美国政府首次公开介入 OpenAI 旗舰模型发布节奏GPT-5.6 Preview System CardAgent 评测体系化WeaveBench、Claw-SWE-Bench、PlanBench-XL、Agents’ Last Exam 等多篇 Benchmark 集中发布推动 Agent 能力标准化评测多项 Benchmark信息源与方法说明执行步骤状态说明P0 官方源核验✅OpenAI BlogGPT-5.6、Jalapeño、Daybreak、Codex-Maxxing、Patch the Planet、Anthropic BlogClaude Tag、新华网FORCE 大会、新浪财经/中国经营网智元均已逐一核验关键词定向搜索✅AI CodingGPT-5.6、豆包、Jalapeño、Daybreak、AgentClaude Tag、桌面Agent、Benchmark、具身智能智元、Cosmos 3、Embodied-R1.5组合覆盖Hugging Face Papers✅拉取 6 月全部论文筛选 Agent/Coding/Embodied/Robotics 方向纳入 6 篇主选论文信源交叉核验✅GPT-5.6 信息由 OpenAI 官方 Blog Deployment Safety 系统卡 新华网/证券时报多源印证去重与质量门✅已完成 URL标题去重丢弃纯观点/无实质内容/无原始链接条目标签分类✅每条按 [官方发布]/[产品更新]/[论文预印本]/[行业新闻]/[学术前沿]/[融资/人事] 标记窗口说明本周覆盖 6/22-6/28 完整 7 天。OpenAI 在本周内密集发布 5 项重大进展构成本周最强信号火山引擎 FORCE 大会同日呼应Anthropic Claude Tag 开启 Agent 新范式智元 15000 台6天直播构成具身智能产业化最强实证。本报告基于公开信息整理原始链接已附在每条信息中。信源优先级官方一手 高信噪媒体 国际对照锚点。

相关新闻