支援 3500 個語言對！阿里發布首债覚增强同傳大模型 Qwen3.5-LiveTranslate

据動察 Beating 監測，同傳系統正在從單調的語音翻譯，進化為能看懂畫面、會克隆人聲的全模態數位譯員。5 月 19 日，阿里通義實驗室正式宣布推出新一代實時音視頻同傳大模型 Qwen3.5-LiveTranslate，將實時同傳能力大幅升級至 3500 多個語言對，並首次支持實時聲音克隆、熱詞自定義與視覺理解。

新模型基於 Qwen3.5-Omni 架構，現已支持 60 種語言的理解與寫作，以及 29 種語言的語音輸出。

不同於傳統只聽聲音的同傳軟體，新模型引入了實時視覺上下文以消除語義歧義。例如當視頻畫面中出現特定口罩時，系統能結合視覺特徵，在英文中精確區分出醫療口罩與化妝舞會面具，以此彌補聲音資訊的缺失。

為了消除噪音與口音帶來的轉錄偏差，新模型還引入了熱詞動態注入機制。原因很簡單，用戶能在翻譯流中直接指定特定人名、品牌或行業術語，強行鎖定正確翻譯，避免專有名詞在同傳中發生漂移。

在跨語種同傳時，模型還支持實時人聲克隆，能夠在同傳流中實時複現說話人原聲的音色與語氣。

目前，新模型已在體驗平台 Qwen Omni 開放，未來 API 將登入阿里雲百煉平臺。

原文鏈接

糾錯/舉報