
不用等对方说完手机贴耳就能听翻译保留语调、节奏、音高——连“激动”都能翻出来 一、小白入门Google 发布了一个什么样的“翻译神器”今天Google 发布了一款全新的实时语音翻译模型Gemini 3.5 Live Translate。它可以做到对方说一句你几乎同步听到翻译支持70多种语言自动识别对方在说什么不需要手动选翻译出来的语音保留说话人原本的语调、节奏和音高一个具体的画面你在东京的居酒屋店员用日语热情地推荐今天的特色菜。你把手机贴到耳朵上像接电话那样听筒里实时传出的中文翻译——语速跟着店员走他激动的时候翻译也快他停顿的时候翻译也自然地缓一拍。店员看到的只是你在“打电话”整个过程自然、不尴尬。一句解释“同声传译”就是翻译和说话几乎同步进行不等对方说完就开始翻。联合国的专业同传译员培养周期以年计算收费极高。Google 把这个能力塞进了手机 App。 二、为什么我说它比 Claude Fable 5 更值得关注今天 AI 圈很多人都在讨论 Anthropic 发布的Claude Fable 5和Claude Mythos 5——确实很强但模型能力已经超出了普通人能用的范畴。而 Google 这个模型不一样它直接推倒了“巴别塔”《圣经》里人类因语言不通而无法沟通的象征你不用学新技能不用买昂贵设备打开手机上的 Google Translate App就能让 70 多种语言之间的沟通变得几乎无感。 三、核心能力它到底做了什么1. 边听边译不等说完过去的翻译工具不管是 Google Translate 的对话模式还是各种会议翻译插件基本都是“轮次制”的你说完一整句 → 系统停顿 → 处理 → 输出翻译中间那段沉默就是在等你说完。3.5 Live Translate 改了这个逻辑在你说话的同时模型内部就在做持续的权衡——多等一会儿能拿到更多上下文、翻得更准但等太久就跟不上说话人了。它在两者之间动态调节全程只比说话人慢几秒。2. 保留说话人的语调、节奏和音高这不是那种用固定机器人嗓音读翻译文本的模式。模型会尝试保留语调intonation你强调某个词翻译里也会重读节奏pacing你说得快它翻得快你放慢它也放慢音高pitch你激动时声音变高翻译也跟着变高一句解释传统翻译是把文字“念出来”声音是平的。这个模型是把“你怎么说的”也翻译过去了——连情绪一起传。3. 自动检测语言70种自动识别不需要提前告诉模型“我说的是中文帮我翻成英文”。你直接说它自己判断你在说什么语言自动翻成目标语言。在多人多语言的场景下比如一个会议里有人说日语、有人说法语、有人说中文模型可以分别处理不用每次手动切换。4. 自动滤除噪音在安静的办公室里做翻译不难难的是在嘈杂的街头、拥挤的餐厅、或者机场候机厅。模型会主动滤除背景噪声和音乐只保留说话人的声音来生成翻译。 四、怎么用三条路径路径一普通用户 → Google Translate App最简单在 Android 或 iOS 上打开 Google Translate进入 Live Translate 功能。连接蓝牙或有线耳机对方说话时你通过耳机听到接近实时的翻译Android 独占的“听筒模式”不需要耳机。直接把手机像打电话一样贴到耳朵上翻译后的音频通过手机听筒播放一个具体用法你在巴塞罗那跟一个只说西班牙语的导游走街串巷他在讲这栋楼的历史。你把手机贴到耳朵上听筒里传出的中文翻译几乎和他的西班牙语同步。适合两个场景手边没耳机或者不想让周围的人听到翻译内容。路径二企业用户 → Google MeetGoogle Meet 的语音翻译功能升级为 3.5 Live Translate维度升级前升级后支持语言数5种70多种语言组合仅限和英语互译2000多种组合操作方式需要提前配置即时访问之前如果你的团队里有人说中文、有人说日语、有人说葡萄牙语Meet 的翻译只能把英语翻成这几种语言——中文到日语、日语到葡萄牙语这种组合不支持。现在可以了。目前是私有预览阶段本月先对部分企业客户开放今年晚些时候更大范围推出。路径三开发者 → Gemini Live API开发者可以通过 API 在自己的应用中集成实时翻译能力。最小可用配置Pythonconfigtypes.LiveConnectConfig(response_modalities[AUDIO],translation_configtypes.TranslationConfig(target_language_codezh-Hans,# 目标语言简体中文echo_target_languageTrue# 如果对方说的已经是中文就原样回放))两个核心参数target_language_code你要翻成什么语言zh-Hans简体中文ja日语en英语echo_target_language如果对方说的本来就是目标语言设为true原样回放设为false保持静默已集成的开发平台Agora、Fishjam、LiveKit、Pipecat 等已经做好了和这个 API 的集成——开发者不需要自己处理音频流的工程问题。一个真实案例东南亚打车平台Grab正在测试这个模型用于司机和乘客在接驾时的多语言通话。Grab 每月有超过1000万通语音电话通过平台拨出。一个泰国司机和一个日本游客之间的电话双方各说各的语言模型在中间做实时双向翻译。 五、支持的语言70多种语言覆盖全球主要语种。语言代码语言代码中文简体zh-Hans英语en中文繁体zh-Hant日语ja西班牙语es韩语ko法语fr德语de俄语ru阿拉伯语ar葡萄牙语巴西pt-BR印地语hi泰语th越南语vi印尼语id土耳其语tr完整 70 语言见官方文档BCP-47 代码这是国际通用的语言编码标准。比如zh-Hans表示“简体中文”zh-Hant表示“繁体中文”en-US表示“美式英语”。 六、安全标记防止 AI 语音被滥用所有 3.5 Live Translate 生成的音频都用SynthID做了水印标记。这个水印人耳听不出来但可以被技术手段检测到目的是标记哪些语音是 AI 生成的防止有人拿翻译后的语音去冒充真人SynthIDGoogle DeepMind 开发的 AI 内容水印技术类似纸币上的防伪标记肉眼看不见但机器能验。 七、几个能立刻想到的使用场景场景具体画面用哪个产品海外旅行在巴黎问路、在东京点菜、在伊斯坦布尔砍价手机贴耳朵实时听翻译Google Translate App跨国团队会议中美日三地同事开周会各说各的语言每个人听到自己语言的翻译Google Meet国际客服客服团队处理多语言来电不需要按语种分组Gemini Live API出海直播中文主播面向多语言观众实时生成多语种配音Gemini Live API跨国打车/外卖司机和乘客语言不通时的通话翻译Gemini Live API如 Grab课堂/培训留学生用耳机听母语翻译的课堂讲授Google Meet 或 API⚠️ 八、它还不能做什么Google 自己也承认了当前限制语音复制的准确性会“飘”有些词翻得不够准相似语言会混淆比如西班牙语和葡萄牙语靠太近时多人快速对话时声音可能会“卡”但对于旅行问路、跨国开会、打车点菜这些日常场景“够用”的门槛已经跨过去了。传统同声传译员培训周期以年计算全球能做好的人极少收费极高。3.5 Live Translate 当然还做不到专业同传的水平但它把“边听边译”从一个稀缺的专业技能变成了手机上随时可用的功能。✅ 总结层次核心内容小白理解Google 做了一个能边说边译的翻译模型70语言还保留语气怎么用① Google Translate App手机贴耳② Google Meet企业会议③ API开发者集成核心能力自动检测语言、保留语调节奏、滤除噪音、SynthID 水印防滥用Gemini 3.5 Live Translate—— 不是更聪明的助手是更平等的沟通。Google 推倒了巴别塔。剩下的是你愿不愿意拿起手机。