小紅書開源全連續自迴歸TTS模型dots.tts，支持零樣本音訊克隆

据動察 Beating 監測，小紅書 hi lab 開源了 20 億參數的端到端自迴歸文本轉語音 (TTS) 模型 dots.tts，並採用 Apache 2.0 協議公開了完整的推理與微調代碼。公開發布的權重包括基礎預訓練版本、自我糾錯對齊 (SCA) 微調版本以及低延遲推理蒸餾版本。

不同於傳統依賴離散音頻編解碼 Token (Discrete Codec Tokens) 的 TTS 架構 (如 VALL-E、CosyVoice、ChatTTS 等)，dots.tts 實現了全連續、端到端的自迴歸流匹配架構，在整個管線中完全不使用任何離散 Token。dots.tts 將 48 kHz 取樣率的 AudioVAE 提取的連續特徵與語義編碼器、骨幹語言模型 (初始化自 Qwen2.5-1.5B-Base，直接處理 BPE 文本，無需拼音輸入) 以及自迴歸流匹配聲學頭相結合，預測連續潛變量，並由生成器重構為音頻。由於直接預測連續特徵，dots.tts 避開了離散量化造成的音質損失，保留了發音細節、音色相似度與情感表現力。

dots.tts 基於約 150 萬小時語音數據預訓練。在 Seed-TTS-Eval 評測中，dots.tts 在中文、英文和中文困難測試集上的字錯誤率 (WER) 分別為 0.94% / 1.30% / 6.60%，相似度得分 (SIM) 為 81.0 / 77.1 / 79.5，均達到開源 SOTA 水平。在 24 種語言的 MiniMax Multilingual 基準測試中，平均說話人相似度達到 83.9。小紅書已在 Hugging Face 提供了 Gradio 體驗空間，供用戶線上測試零樣本聲音克隆。

原文鏈接

糾錯/舉報