MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

发布时间:2026/5/30 20:53:14

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction MiniCPM‑o 4.5 论文核心总结与翻译一、核心内容总览MiniCPM‑o 4.5是OpenBMB推出的9B参数开源全双工全模态大模型,核心目标是实现实时、同步、主动式的类人多模态交互,可同时看、听、说并基于实时场景主动提醒/评论,在端侧设备(≤12GB内存)高效运行,视觉语言能力接近Gemini 2.5 Flash,全模态理解与语音生成超越Qwen3‑Omni‑30B‑A3B。二、核心创新点全双工全模态交互范式突破传统“感知→响应”交替的回合制交互,通过Omni‑Flow统一流式框架,将多模态输入输出对齐到共享时间轴,实现感知与响应并行,支持主动式交互(无需用户显式触发)。端到端高效全模态架构整合流式视觉编码器、音频编码器、Qwen3‑8B大语言模型主干、轻量语音解码器,9B参数实现端到端训练,视觉压缩比达16×,语音生成不拖累语言能力。时间对齐交错语音生成(TAIL)解决文本生成与语音播放时序错位问题,自适应控制每段文本生成量,让语音输出实时对齐当前场景,兼顾流畅度与时效性。端侧实时推理优化基于llama.cpp

相关新闻