据 1M AI News 监测,蘋果機器學習研究科學家 Shuangfei Zhai 發表論文,提出「排他自注意力」。改動很簡單:標準 Transformer 中,每個 token 在計算注意力時會把自己的信息也算進去;XSA 強制排除自身位置的貢獻,只從性上下文中提取信息。直覺上,token 已經知道自己是什麼了,注意力機制的價值在於告訴它周圍有什麼。
實驗結果在最大 27 億參數規模內一致優於標準自注意力,且序列越長優勢越明顯。Zhai 此前也是 Attention Free Transformer(AFT)的作者,持續在注意力機制替代方案上探索。