Google DeepMind 发布 Gemini 3.5 Live Translate,这是其最新的音频模型,支持 70 多种语言的近实时语音到语音翻译。模型可自动检测语言,生成流畅自然的翻译语音,保留说话者的语调、节奏和音高。与逐轮系统不同,它连续生成语音,平衡质量与实时性。
该模型即日起在 Google 产品中推出,包括 Google Meet 和 Google Translate 应用。合作伙伴如 Grab 正在测试该模型,用于司机与乘客之间的多语言沟通。模型通过 Gemini Live API 提供,开发者可轻松构建语音翻译应用。
看英文原文 →