header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

小紅書開源全連續自迴歸TTS模型dots.tts,支持零樣本音訊克隆

動察 Beating 監測,小紅書 hi lab 開源了 20 億參數的端到端自迴歸文本轉語音 (TTS) 模型 dots.tts,並採用 Apache 2.0 協議公開了完整的推理與微調代碼。公開發布的權重包括基礎預訓練版本、自我糾錯對齊 (SCA) 微調版本以及低延遲推理蒸餾版本。

不同於傳統依賴離散音頻編解碼 Token (Discrete Codec Tokens) 的 TTS 架構 (如 VALL-E、CosyVoice、ChatTTS 等),dots.tts 實現了全連續、端到端的自迴歸流匹配架構,在整個管線中完全不使用任何離散 Token。dots.tts 將 48 kHz 取樣率的 AudioVAE 提取的連續特徵與語義編碼器、骨幹語言模型 (初始化自 Qwen2.5-1.5B-Base,直接處理 BPE 文本,無需拼音輸入) 以及自迴歸流匹配聲學頭相結合,預測連續潛變量,並由生成器重構為音頻。由於直接預測連續特徵,dots.tts 避開了離散量化造成的音質損失,保留了發音細節、音色相似度與情感表現力。

dots.tts 基於約 150 萬小時語音數據預訓練。在 Seed-TTS-Eval 評測中,dots.tts 在中文、英文和中文困難測試集上的字錯誤率 (WER) 分別為 0.94% / 1.30% / 6.60%,相似度得分 (SIM) 為 81.0 / 77.1 / 79.5,均達到開源 SOTA 水平。在 24 種語言的 MiniMax Multilingual 基準測試中,平均說話人相似度達到 83.9。小紅書已在 Hugging Face 提供了 Gradio 體驗空間,供用戶線上測試零樣本聲音克隆。

举报 糾錯/舉報
糾錯/舉報
提交
新增文庫
僅自己可見
公開
保存
選擇文庫
新增文庫
取消
完成