快訊深度數據

更多

header-langage

蘋果研究員對Transformer注意力「動了一刀」：讓每個token忘記自己，性能一致更好

据 1M AI News 监测，蘋果機器學習研究科學家 Shuangfei Zhai 發表論文，提出「排他自注意力」。改動很簡單：標準 Transformer 中，每個 token 在計算注意力時會把自己的信息也算進去；XSA 強制排除自身位置的貢獻，只從性上下文中提取信息。直覺上，token 已經知道自己是什麼了，注意力機制的價值在於告訴它周圍有什麼。

實驗結果在最大 27 億參數規模內一致優於標準自注意力，且序列越長優勢越明顯。Zhai 此前也是 Attention Free Transformer（AFT）的作者，持續在注意力機制替代方案上探索。

糾錯/舉報

熱門文章

43年最慘烈的單月暴跌，黃金歷史上每次見頂都是同一個劇本

中東戰火重燃加息預期，黃金遭遇43年來最慘烈抛售

這位爆火的北京高中老師江學勤，提前預測了美國的敗局

霍爾木茲倒數開始｜Rewire 新聞早報

鏈上偵探持續監控

17分鐘前

「重倉配置三大市場」巨鯨平倉美布兩油對沖頭寸210萬美元，或轉壓WTI相對布倫特走弱

36分鐘前

Meme幣「4」市值回漲至900萬美元以上，24小時漲幅達20%

1小時前

美股存儲概念股盤前集體下挫，Continue Capital減倉超300萬美元MU多單

1小時前

BlockSec：BSC鏈BCE代幣銷毀機制存在漏洞，駭客套利約67.9萬美元

24H重要資訊

2026-03-23

贝莱德向Coinbase存入839枚BTC和14,802枚ETH

「重倉配置三大市場」巨鯨平倉美布兩油對沖頭寸210萬美元，或轉壓WTI相對布倫特走弱

千问核心成員離職後阿里首次公開表態：繼續開源，現場展示千問萬相開源路線圖

Meme幣「4」市值回漲至900萬美元以上，24小時漲幅達20%

糾錯/舉報

提交

新增文庫

僅自己可見

公開

保存

選擇文庫

新增文庫

取消

完成