header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

蘋果研究員對Transformer注意力「動了一刀」:讓每個token忘記自己,性能一致更好

1M AI News 监测,蘋果機器學習研究科學家 Shuangfei Zhai 發表論文,提出「排他自注意力」。改動很簡單:標準 Transformer 中,每個 token 在計算注意力時會把自己的信息也算進去;XSA 強制排除自身位置的貢獻,只從性上下文中提取信息。直覺上,token 已經知道自己是什麼了,注意力機制的價值在於告訴它周圍有什麼。

實驗結果在最大 27 億參數規模內一致優於標準自注意力,且序列越長優勢越明顯。Zhai 此前也是 Attention Free Transformer(AFT)的作者,持續在注意力機制替代方案上探索。

举报 糾錯/舉報
糾錯/舉報
提交
新增文庫
僅自己可見
公開
保存
選擇文庫
新增文庫
取消
完成