据 動察 Beating 監測,小紅書 hi lab 開源了 20 億參數的端到端自迴歸文本轉語音 (TTS) 模型 dots.tts,並採用 Apache 2.0 協議公開了完整的推理與微調代碼。公開發布的權重包括基礎預訓練版本、自我糾錯對齊 (SCA) 微調版本以及低延遲推理蒸餾版本。
不同於傳統依賴離散音頻編解碼 Token (Discrete Codec Tokens) 的 TTS 架構 (如 VALL-E、CosyVoice、ChatTTS 等),dots.tts 實現了全連續、端到端的自迴歸流匹配架構,在整個管線中完全不使用任何離散 Token。dots.tts 將 48 kHz 取樣率的 AudioVAE 提取的連續特徵與語義編碼器、骨幹語言模型 (初始化自 Qwen2.5-1.5B-Base,直接處理 BPE 文本,無需拼音輸入) 以及自迴歸流匹配聲學頭相結合,預測連續潛變量,並由生成器重構為音頻。由於直接預測連續特徵,dots.tts 避開了離散量化造成的音質損失,保留了發音細節、音色相似度與情感表現力。
dots.tts 基於約 150 萬小時語音數據預訓練。在 Seed-TTS-Eval 評測中,dots.tts 在中文、英文和中文困難測試集上的字錯誤率 (WER) 分別為 0.94% / 1.30% / 6.60%,相似度得分 (SIM) 為 81.0 / 77.1 / 79.5,均達到開源 SOTA 水平。在 24 種語言的 MiniMax Multilingual 基準測試中,平均說話人相似度達到 83.9。小紅書已在 Hugging Face 提供了 Gradio 體驗空間,供用戶線上測試零樣本聲音克隆。