header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

Anthropic呼吁全球暂停AI开发,警告模型正逐步具备「自我升级」能力

閱讀本文需 52 分鐘
在業務高速擴張之際,Anthropic 卻主動呼籲「踩剎車」。
原文標題:《罕見!「AI 巨頭」呼籲全球暫停 AI 開發,警告模型正逐步具備「自我升級」能力》
原文作者:龍玥,華爾街見聞


「我們相信,讓世界擁有放慢或臨時暫停前沿 AI 開發的選項,將對世界有益——以使社會結構和對齊研究能跟上技術進步的步伐。」估值近萬億美元、正衝刺 IPO 的 Anthropic 警告,AI「遞迴自我改進」可能在兩年內到來,並罕見呼籲 AI 開發應「踩剎車」。此舉被批評者視為「營銷手段」,被支持者視為真誠警示。


一家估值接近萬億美元、正衝刺 IPO 的 AI 公司,突然公開呼籲全球暫停 AI 開發。


6 月 4 日,Anthropic 在官方部落格發布了一篇題為《當 AI 構建自身》(When AI Builds Itself)的長文。文章由公司共同創始人 Jack Clark 和內部研究機構負責人 Marina Favaro 共同署名,首次罕見對外披露了一批此前從未公開的內部運營數據。


這些數據顯示,AI 正在以驚人速度加速 AI 自身的開發進程:截至 2026 年 5 月,Anthropic 超過 80% 合併入代碼庫的代碼由 Claude 撰寫;與 2024 年相比,工程師每日合併代碼量已增長 8 倍;在一項內部研究調查中,員工估計使用最新模型 Mythos Preview 後,自身產出約為不使用任何 AI 工具時的 4 倍。


更關鍵的是,Anthropic 提出了一個令整個 AI 行業不安的概念警示:「遞迴自我改進」(recursive self-improvement)——即 AI 系統無需人類干預、自主設計並改進其繼任者的能力。這一階段尚未到來,但「可能在未來兩年內發生,甚至更早」。


根據這些數據,Anthropic 提出一個在 AI 行業頗為罕見的主張:全球應協調考慮暫停或放慢前沿 AI 的開發。在業務高速擴張之際,Anthropic 卻主動呼籲「踩剎車」——這一反常舉動,正在華爾街和硅谷同時引發爭議。


批評者認為,Anthropic 此舉不過是其一貫「監管俘獲」策略的延伸——通過渲染 AI 風險來給監管部門施壓,從而限制競爭對手,尤其是那些開源模型的發展空間。也有人將 Anthropic 對自家「Mythos」網路安全模型的限制性發布解讀為一種行銷手段:一方面炫耀能力,另一方面又以「安全」為由拒絕全面開放。支持者則認為,Anthropic 對 AI 風險的警示有其真誠的一面。賓大沃頓商學院教授 Ethan Mollick 表示,AI 實驗室往往不是單一主體:它既有兆元美元公司的行銷、律師和資本邏輯,也有追求下一代模型的研究人員,還有真心憂慮未來的「哲學王」式人物。


AI 供應鏈分析師、被網友譽為美元股新「股神」的 Serenity 發帖表示,Anthropic 的言外之意其實是「請讓我們領先吧,停止開發!」而無論如何像這樣的聲明會鼓勵每個國家開始投資 AI。



數據本身已足夠震撼:Anthropic 年化營收從 2025 年底的 90 億美元,將於 2026 年 6 月底飆升至 500 億美元;公司已秘密提交 IPO 文件;其最新模型 Mythos Preview 可連續工作超過 16 小時,並在首批測試中發現了全球最重要系統中逾一萬個高危軟體漏洞。


在這場「加速」與「剎車」的悖論中,Anthropic 的這篇博文或許是迄今為止 AI 行業最誠實也最矛盾的自白。



《當 AI 構建自身》(When AI Builds Itself)博文節選金句如下:


1. 我們相信,讓世界擁有放慢或臨時暫停前沿 AI 開發的選項,將對世界有益——以使社會結構和對齊研究能跟上技術進步的步伐。


2. 訓練運行比導彈發射井更容易隱藏,其投入具有通用性,而且秘密違約的激勵極大,因為當其他人暫停時,繼續推進者可能繼承領先地位。


3. AI 遞迴自我改進尚未發生,也並非不可避免。但它到來的時間,可能早於大多數機構所準備的。那類技術從未存在過,但我(Jack Clark)相信這可能在未來兩年內發生,甚至更早。


4. 如果系統能夠完全構建自己的繼任者,那麼我們保護、監控並塑造其行為的方式就會變得重要得多。


5. Edison 說天才是 1% 的靈感加 99% 的汗水。但我們看到汗水正在被日益自動化。


6. Claude 撰寫的程式碼在 2025 年底還稍遜於人類,如今大致持平,我們預期一年內將嚴格優於人類。


7. 大約一年前,我開始大量使用 Claude 工作流程。那是一段瘋狂的經歷,距離我最後一次親自寫程式碼,現在已經大約五個月了。——Anthropic 員工


8. 簡言之,「執行」本身——寫程式碼、跑實驗、產出結果——如今幾乎不再消耗人類時間,儘管仍然消耗算力。


9. 順利的日子裡,我不禁覺得我做的一切都無關緊要,一切都被自動化了,比我更快更好。但也有一切都崩了、我不明白為什麼的日子,我意識到我已不再清楚自己究竟在做什麼。——Anthropic 員工


10. 如果能夠有效地放緩這項技術的發展速度,為自身爭取更多時間來應對其深遠影響,我們認為這很可能是一件好事。但如果放緩只是讓最不謹慎的行為者在技術上迎頭趕上,最終結果可能讓所有人都更不安全。在缺乏全球協調機制的情況下,各公司和各國政府將不得不在競爭壓力和地緣政治壓力之下,做出艱難的安全抉擇。


《當 AI 構建自身》(When AI Builds Itself)全文翻譯如下:


我們在遞迴自我改進方面的進展及其影響


在 AI 發展史的大部分時間裡,人類主導著其發展周期的每一個步驟。但在 Anthropic,我們正在將越來越多的 AI 開發工作委託給 AI 系統本身,這正在加速我們的研發進程。


如果這一趨勢延續足夠長的時間,並獲得足夠的算力,其最終指向是:AI 系統將能夠完全自主地設計和開發自己的繼任者。這被稱為遞迴自我改進。我們尚未達到這一階段,遞迴自我改進也並非不可避免。但它到來的時間,可能早於大多數機構所預期的。


Anthropic 研究院利用公開基準測試數據,以及 Anthropic 內部此前未曾公開的數據,證明 AI 已經在加速 AI 系統的開發。僅舉一例:如今,Anthropic 工程師每季度平均提交的程式碼量,是 2021 年至 2025 年間的 8 倍。


本文探討的技術趨勢表明,AI 系統的能力將在未來數年內大幅躍升。這些趨勢影響深遠。能夠自我構建的 AI,將是技術史上的重大突破——它有望在科學、醫療等領域為世界帶來巨大福祉。但完整的遞迴自我改進,也可能加劇人類失去對 AI 系統控制權的風險。一旦系統能夠完全自主構建自身的繼任者,我們對其實施安全保障、監控管理以及行為塑造的方式,都將變得遠比現在更加重要。


構建第一代 Claude(2021—2023 年)

早期,Anthropic 的工作與其他科技公司並無二致:員工們在筆記型電腦上編寫程式碼和文件。


聊天機器人(2023—2025 年)

人們開始借助早期聊天機器人輔助完成部分工作,例如生成簡短的程式碼片段,再將輸出內容複製到文字編輯器中。


編程智慧體(2025—2026 年)

隨著智慧體能力的增強,它們能夠獨立編寫和修改程式碼,有時甚至可以處理整個檔案。


自主智慧體(當下)

智慧體現在可以自行運行程式碼,並將數小時的工作委派給其他智慧體。


閉合循環(20XX 年?)

未來,智慧體或將具備足夠的能力,自主構建和訓練模型。若果真如此,Claude 的後續版本將能夠由 Claude 自身持續迭代改進。



來自外部世界的證據


AI 模型的進步速度正在加快。模型能夠獨立可靠完成任務的時長,此前大約每七個月翻一番,如今這一周期已縮短至約每四個月翻一番。2024 年 3 月,Claude Opus 3 能夠完成人類約需四分鐘完成的軟體任務;一年後,Claude Sonnet 3.7 已能處理約需一個半小時的任務;再過一年,Claude Opus 4.6 已能勝任需時 12 小時的任務。¹ 若此趨勢持續,今年之內,需要熟練人員數天才能完成的任務或將進入 AI 的能力射程;到 2027 年,AI 系統或許能夠勝任需要人類數周才能完成的工作。


同樣的規律也出現在編程和研究基準測試中。基準測試衡量模型在特定領域的表現,當模型成績接近滿分時,該基準即被視為「飽和」。² SWE-bench 是一項標準的真實世界軟體工程測試:它向模型提供一個真實的開源程式碼庫和一份真實的缺陷報告,要求模型撰寫程式碼修復問題,並通過專案自身的測試。模型的得分已從個位數的低分,在兩年內發展到使該基準趨於飽和。


CORE-Bench 測試模型能否複現已有研究成果,這是模型開展原創研究的前提條件。它向 AI 模型提供一篇已發表論文的程式碼和資料,要求其重新運行所有內容並確認能否複現論文結果。AI 系統的複現成功率從 2024 年的約 20%,在十五個月後便使該基準趨於飽和。負責運營長時任務基準測試的 METR 發現,Claude Mythos Preview 能夠持續工作「至少」16 小時,已「處於 [METR] 在不引入新任務的情況下所能評測範圍的上限」。


公開基準測試能夠揭示很多關於這些系統能力的資訊,但無法反映 AI 系統對加速 AI 開發本身所產生的影響。要了解這一點,我們需要來自 Anthropic 等 AI 公司內部的直接證據。


來自 Anthropic 內部的證據


構建一個前沿模型,大致需要兩類工作:其一是工程工作,包括撰寫程式碼、搭建基礎設施和監督模型訓練;其二是研究工作,包括決定運行哪些實驗、解讀實驗結果,以及確定下一步嘗試哪些方向。


在工程和研究兩個領域,情況如出一轍。在工程方面,Claude 可以接手一個規格不明確的問題並自行找出解決方案;人類提供目標,但無需再提供方法。在研究方面,Claude 在執行規格明確的實驗時,已能媲美乃至超越熟練的人類研究員。然而,在需要 Claude 自主判斷和設定目標時,無論是工程還是研究領域,都仍存在顯著的能力差距。正是這一差距,將今天的 AI 與未來能夠自主設計繼任者的系統區分開來。


在 Anthropic,員工隨著經驗積累,通常會承擔更具開放性和重要性的任務。最初,他們執行別人指定好的任務,例如:「導出按鈕失效了,請修復它。」隨著經驗增長,他們會接到一個目標,然後自行設計解決方案,例如:「調查一下為何網路在高負載下會變慢。」在最高級別,他們需要自行判斷哪些問題值得解決:「團隊下個季度應該做什麼?」我們可以借助 Anthropic 的內部數據,觀察 Claude 在處理這些不同類型任務方面已走了多遠。


Claude 已撰寫了 Anthropic 相當大比例的程式碼。截至 2026 年 5 月,合併到 Anthropic 程式庫中的程式碼,超過 80% 由 Claude 創作。³而在 2025 年 2 月 Claude Code 以研究預覽版發布之前,這一比例還處於個位數的低水平。這一轉變同樣體現在每位工程師的產出量上。每位工程師每天合併的程式碼行數,在 Anthropic 最初四年(2021—2024 年)保持穩定,隨後在 2025 年開始上升——彼時 Claude 已從僅給出建議供工程師複製粘貼,轉變為能夠直接運行程式碼。2026 年,隨著模型開始在更長時間跨度內自主工作,這一增長斜率再度加陡。這兩個拐點如下圖所示。2026 年第二季度,典型工程師每天合併的程式碼量是 2024 年的 8 倍。這是因為大量程式碼由 Claude 編寫,工程師負責指導和審閱,而非自己親手輸入。



柱狀圖:按人員、按季度統計的程式碼貢獻量,時間跨度從 2021 年第二季度至 2026 年第二季度。圖中標註了八個不同模型的發布日期:Claude 1、Claude 2、Claude 3、Claude 4、Claude Code、Claude Sonnet 4.5、Claude Opus 4.5、Claude Mythos Preview(內部訪問)及 Claude Mythos Preview。


需要說明的是:程式碼行數是一個不夠完善的衡量指標,它衡量的是數量而非質量。因此,2026 年第二季度「每位工程師每天程式碼量增至 8 倍」,幾乎可以肯定高估了實際的生產率提升幅度。儘管如此,它確實反映了一種加速態勢。在 Anthropic,我們不以程式碼行數論英雄;團隊成員之所以產出更多程式碼,純粹是因為他們借助 AI 系統寫出了更多程式碼。


程式碼行數的增長,與員工對生產率大幅提升的主觀感受相吻合。在 2026 年 3 月一項涵蓋 Anthropic 各研究團隊 130 名員工的調查中,受訪者的中位估計是:與完全不使用任何 AI 模型相比,借助 Mythos Preview,他們在同類項目上的產出約為原來的 4 倍。我們預計,當時實際提升幅度會稍低於此。⁶ 儘管如此,我們認為這一總體判斷是可信的,也與我們的其他觀察相符:Anthropic 相當大比例的技術員工,正在以比沒有 AI 輔助時快數倍的速度完成核心工作。


我們還觀察到,Anthropic 的員工正在借助 Claude 完成一些原本不會發生的工作,例如構建探索性工具、處理長期積壓的程式碼清理任務。舉例來說,2026 年 4 月,Claude 提交了 800 多個修復補丁,將某類 API 錯誤減少了千分之一。監督此項工作的工程師估計,同等工作量若由人類完成,需要四年時間;排查他人的缺陷既緩慢又費力,而且人類很難同時在腦海中保持如此大量陌生的上下文資訊。


「大約一年前,我開始大量使用 Claude 工作流程。那是一段瘋狂的經歷,距離我最後一次親自寫程式碼,現在已經大約五個月了。」——Anthropic 員工*


Claude 編寫的程式碼品質「過關」,且持續提升。「好程式碼」意味著兩件事:它能正常運行,並且以其他工程師能夠理解和在其基礎上繼續開發的方式編寫。就第一條標準而言,證據是清晰的:Anthropic 員工在 Claude 執行任務過程中糾正、重新引導或接管任務的頻率,已穩步下降長達一年,在最複雜、最開放性的任務上也不例外。這類任務的特點是沒有明確的規格要求,工程師自己也不確定答案應該是什麼樣的。這一點在 Claude 在不同難度任務上的成功率變化趨勢中清晰可見(如下圖所示)。Claude 寫出的程式碼,確實能用。


折線圖:Claude Code 會話成功率(按四種任務類型——簡單任務、常規任務、有難度的任務及開放性問題——分別統計),包含六個不同模型:Claude Sonnet 4.5、Claude Opus 4.5、Claude Opus 4.6、Mythos Preview(內部訪問)、Mythos Preview 及 Claude Opus 4.7


在最具開放性的任務上,Claude 的成功率在 2026 年 5 月達到 76%,六個月內提升了 50 個百分點。以這一難度等級的任務為例:一次常規升級導致數萬個訓練任務崩潰。一名工程師僅憑幾條文字說明和集群訪問權限,就將這一線上事故交給了 Claude 處理。Claude 在運行中的任務間逐一檢索,逐個測試環境設置,最終定位到觸發崩潰的單個晦澀調試標誌,可靠地複現了問題,並確認了修復方案。整個過程約兩小時,完成了通常需要兩到三天才能完成的工作。


就第二條標準——編寫其他工程師能夠理解並在其基礎上繼續開發的程式碼——而言,人類與 AI 之間的差距依然存在,但正在迅速縮小。Anthropic 員工內部尚未達成完全共識,但許多人認為:2025 年底,Claude 編寫的程式碼在品質上仍略遜於 Anthropic 人類工程師編寫的程式碼;而如今,兩者已大致持平。我們預計,在未來一年內,Claude 編寫的程式碼品質將超越人類。


這一變化也改變了 Anthropic 審查自身程式碼的方式。現在,提交到程式庫的變更,必須先經過一個自動化 Claude 審查工具的檢查——該工具在程式碼合併前會主動發現缺陷、安全漏洞及其他問題。借助這一工具,我們進行了迴溯分析,發現如果對程式庫的每次變更都進行自動化 Claude 審查,歷史上約有三分之一曾導致 claude.ai 線上事故的缺陷,將在進入生產環境之前就被攔截。而編寫這些程式碼的工程師,本已是世界上構建此類系統最頂尖的人才。如今,Claude 正在捕捉他們所遺漏的錯誤。


「Claude 編寫的程式碼,在 2025 年底稍遜於 Anthropic 人類工程師編寫的程式碼,目前已大致持平,我們預計在今年內將全面超越。」


Claude 擅長圍繞既定目標運行實驗。每次 Anthropic 發布新模型,我們都會進行同一項測試:給 Claude 一段訓練小型 AI 模型的程式碼,要求其在保證通過相同正確性檢驗的前提下,盡可能提升程式碼運行速度。目標和成功指標事先固定,Claude 的任務是通過重寫程式碼、運行程式碼、計時,並反复迭代來尋找加速空間——這是一個實驗研究循環的微觀版本。2025 年 5 月,Claude Opus 4 的平均加速比約為起始程式碼的 3 倍;到 2026 年 4 月,Claude Mythos Preview 已達到約 52 倍。作為參照,一位熟練的人類研究員需要四到八小時才能達到 4 倍加速。⁷ 在這個研究工作流程的特定環節——對規格明確的實驗內部步驟進行優化——Claude 在不到一年的時間內,已從「極為有用」躍升至「超越人類」。


「當前的格局大致是:『人類提出想法,模型能夠以比以前快一個數量級的速度來實現、測試和評估這些想法。』」


Claude 正在逐步提升自主提出实验方案的能力。2026 年 4 月,Anthropic 发布了 Claude 端到端运行开放性研究项目的首次演示。Claude 驅動的智能體被給定一個 AI 安全領域的開放性問題——大致是:較弱的模型能否可靠地監督更強的模型?——然後被留下來自行解決。這涉及提出假設、進行測試、與並行運行的智能體共享發現,以及反复迭代。該任務有明確的性能「下限」和「上限」:下限是弱監督者獨立運作的表現,上限是強模型在正確答案訓練下的表現。兩位人類研究員約花一周時間,彌補了該差距的約 23%;而這些智能體在合計約 800 小時的運算時間內,彌補了 97%,消耗算力成本約為 18,000 美元。


這項工作有一些需要說明之處:研究結果未能在生產規模的模型上得到完全複現,且人類仍然負責選定問題和制定評分標準。但在這些約束條件之內,每一個實驗都由智能體自主設計。方向設定,是人類所扮演的唯一實質性角色。


「在一到兩天的時間裡,Claude 在幾乎沒有我介入的情況下完成了所有這些工作。我想,如果一位初級同事能在同樣的時間內帶來這樣的成果,我會相當驚訝。未來已至。」


Claude 在引導研究會話走向研究發現方面正日益精進。我們檢視了 2026 年 1 月至 3 月間的真實 Claude Code 會話,其中 Anthropic 研究員正與 Claude 協作處理開放性調研問題,例如查明某次訓練運行為何反复崩潰,或某模型為何在基準測試中得分不佳。在每一個案例中,我們都找到了一個研究員走了彎路的時刻——他們追求了一個方向,導致會話偏離軌道,直到最終重回正軌。隨後,我們僅向不同的 Claude 模型展示會話偏離軌道之前的內容,詢問它下一步會怎麼做。再由另一個能夠看到會話最終走向的 Claude,判斷 AI 和人類哪一方建議了更好的下一步行動。⁸


由於我們刻意選取的是人類決策存在改進空間的時刻(n=129),這並非模型與人類判斷力的同等條件對比。這些時刻為我們提供了一組真實、有挑戰性的場景——在這些場景中,正確的下一步並不明顯,而人類的選擇則作為衡量模型表現的有效參照基準。在這一指標上,我們 2025 年 11 月最優模型(Opus 4.5)優於人類選擇的比例為 51%;到 2026 年 4 月(Mythos Preview),這一比例增至 64%。研究工作的日常,在很大程度上是一連串「下一步該怎麼做」的決策鏈,這使得上述指標成為衡量模型最終能否獨立主導一項研究調查的相關指標。我們將這一結果視為早期信號,表明 AI 系統在做出 AI 研究所依賴的判斷性決策方面正日益精進。


柱狀圖,標題為「模型能否比人類選出更好的下一步?」該圖展示了九個不同模型的表現:Claude 3 Haiku、Claude Sonnet 4、Claude Sonnet 4.5、Claude Haiku 4.5、Claude Opus 4.5、Claude Sonnet 4.6、Claude Opus 4.6、Claude Opus 4.7 及 Claude Mythos Preview


「就目前而言,人類的比較優勢仍在於把握全局,以及在當前任務的局限之外進行更宏觀的思考。」


Anthropic 未來的工作形態會是什麼樣子?


現有證據表明,在 AI 開發流程的每個環節,人類的角色都在收窄。一旦人類和 AI 編寫的程式碼質量達到對等,人類將完全停止編寫程式碼,轉而只負責審查。但如果他們審查程式碼的速度跟不上 Claude 生成程式碼的速度,人類審查就會成為 AI 開發的瓶頸。同樣,一旦 Claude 能夠運行實驗,問題就會轉變為「哪些實驗值得運行?」簡而言之:執行層面(即編寫程式碼、運行實驗、產出結果)在人力時間上的成本現在幾乎為零,即便在算力成本上依然存在。


目前,人類具有比較優勢的領域,是研究品味與判斷力,包括:判斷哪些問題值得關注、哪些結果值得信任、以及何時某條路徑已走入死胡同。


「工作(乃至生活)曾運行在一種人與人之間小恩小惠的饋贈經濟之上。『能幫我跑一下這個腳本嗎?』……每一個這樣的請求都創造了一點點人情債,一點點彼此的牽絆。[Claude] 更快,不產生人情債,但每一次這樣的互動,都是一次失去人與人之間協作機會的遺憾。」


「在一切運轉順暢的日子裡,我不禁覺得自己做的事情毫無意義——一切都已自動化,比我更好、更快。但也有一些日子,什麼都壞掉了,我不明白為什麼,然後我意識到,我已經不知道自己究竟在做什麼了。」


如果我們的判斷有誤呢?


對上述證據的一個自然反駁是:目前仍掌握在人類手中的工作——選擇研究什麼問題——才是最重要的。缺乏這種判斷力,Claude 只是一個能力出眾的助手,而非一個能夠獨立推動 AI 進步的系統。


當前的訓練方法和架構是否足以解鎖這種能力,目前尚無定論。但 AI 的進步很少依靠「靈光乍現」。AI 近期歷史上確實出現過幾次這樣的時刻,例如 Transformer 架構或混合專家模型,但範式轉換級別的思想之間往往相隔數年。在這之間,大多數進步都是漸進式的:我們擴大某項規模,觀察什麼地方出現問題,修復它,再繼續嘗試。這恰恰是 Claude 如今最擅長的工作流程。愛迪生說,天才是 1% 的靈感加上 99% 的汗水。但我們正看到「汗水」的部分越來越多地被自動化取代。一個越來越清晰的事實是:推動前沿進步的大部分工作是可以自動化的;大規模的研究進展在很大程度上取決於工具和資源——它們決定了你運行實驗的速度、同時運行的數量,以及獲得結果的效率。


即便退一步假設 Claude 永遠無法形成良好的研究品味,我們的證據保守解讀之下,仍意味複利式的加速。如果人類將大部分時間花在那佔比極小的方向設定工作上,而 Claude 處理其餘一切,那就意味著每位工程師或研究員所掌舵的工作量遠超從前。我們觀察到的證據表明,Anthropic 的員工既在加速前進,也在拓寬覆蓋範圍。在實踐中,這意味著 AI 已經讓 Anthropic 的運轉速度遠快於有效 AI 工具出現之前。


相對大膽的解讀則是:Claude 研究判斷力持續改進的早期證據——尽管目前尚顯微弱——表明這項能力同樣在進步之中。「研究品味」或許不過是另一種 AI 系統曾經不擅長、後來學會了的能力。我們在其他定性技能上見過類似的規律,比如 AI 系統學會解釋一個笑話為何好笑、展現心智理論,以及解開語言謎題。


可能的未來


接下來會發生什麼,取決於兩件事:這一趨勢是否延續,以及如果它確實延續,我們選擇如何應對。我們可以設想至少三種未來情景:


情景一:趨勢停滯,但今天的 AI 能力得到廣泛普及


本文中呈現了許多指數增長的軌跡。但這些軌跡實際上可能是 S 形曲線。我們或許正在接近曲線的拐點,在那裡規模回報開始遞減,曲線趨於平緩直至平坦。將優秀研究員與卓越研究員區分開來的判斷力,或許是一種無法通過擴大訓練投入(如算力和數據)來獲得的能力。若果真如此,突破這一瓶頸將需要一個全新的思路——例如一種能夠取代當前所有前沿模型所採用的 Transformer 架構的新型架構方案。


另一種可能性是,AI 進步的關鍵制約因素在於供應鏈,而非模型本身:推進和普及前沿技術所需的能源和算力,可能超出當前的供給能力。晶片製造速度、電網擴充速度,或互聯帶寬,可能才是真正的瓶頸所在,而非智能本身。我們也無法排除 AI 生態系統遭受外生衝擊的可能性,例如算力或電力供應的突然萎縮,這兩者中的任何一個都將拖慢進展,並使各實驗室的前瞻性投資成本大幅上升。此外,或許還存在我們尚未預料到的其他發展壁壘。


即便模型能力凍結在今天的水平,我們也預期世界將發生重大變化。「玻璃翼計劃」(Project Glasswing)是一個早期跡象:在專案啟動最初幾週內,Mythos Preview 便在全球最重要的系統中發現了超過一萬個高危及嚴重安全漏洞——數量之多,使得網路防禦的瓶頸已從「發現漏洞」轉移至「快速修復漏洞」。而今天的模型向更廣泛經濟體的擴散,目前仍處於早期階段——在那個未來,一家 100 人的公司將越來越能完成 1000 人公司的工作,因為每位員工之下都將統率著一個由智能體構成的金字塔。


我們列出這種情境是為了完整性,但我們認為它不大可能發生。我們能夠測量的每一項能力,包括那些感覺更難量化的能力,如程式碼品質和開放性任務的成功率,迄今都遵循著相同的曲線,而我們尚未看到這條曲線出現彎折。在我們考慮的三種未來中,這種情境將給各國政府和社會留下最充裕的適應時間。我們更擔憂接下來的兩種情境——它們的演變速度更快,留給準備的空間也更為有限。


情境二:AI 實驗室持續獲得複利式效率提升


在這一情境中,AI 開發在很大程度上實現了自動化,但人類繼續設定研究方向並評判結果。使用 AI 系統的組織將隨著時間推移變得效率大增,因此我們可以預見每位員工將獲得顯著的生產率倍增效應——100 人的公司能夠完成相當於 1 萬人乃至 10 萬人規模的工作。這將徹底變革知識工作和政府服務,但也可能被用於有害目的,從對整個人口實施威權式監控,到針對每個個體量身定制、以超越任何人類團隊所能匹敵的規模運作的影響力操縱行動。


Anthropic 等公司的人員角色將隨之轉變:人們將與 AI 系統携手,擴大研究規模、催生新的洞見,並共同構建驗證 AI 輸出可信度所必需的系統。


我們在本文中呈現的證據表明,我們很可能正在邁向這一情景。但加速流程的某一環節,往往只是將瓶頸轉移到別處:整體速度受制於尚未提速的部分。在計算機科學領域,這被稱為阿姆達爾定律,同樣的邏輯也適用於組織管理。Anthropic 已經遭遇了阿姆達爾定律的一個典型特徵:隨著我們在組織內推動更多程式碼流轉,人工程式碼審查已成為新的瓶頸。


我們在工程領域之外也遭遇了這種摩擦。由於 Anthropic 員工與高能力模型協作,新想法、新舉措、新工具和新模擬方案如雨後春筍般湧現——其數量遠超我們實際推進的能力。組織識別並修復這些瓶頸的速度,或許是一種會隨時間積累的能力,並可能成為任何組織最重要的核心競爭力。


情景三:AI 系統自身具備完整的遞迴自我改進能力,並開始構建自己的繼任者


如果能力提升的技術趨勢持續,而 AI 系統能夠發展出人類變革性創造力所固有的那些能力,那麼 AI 系統自主設計和改進自身,是完全有可能發生的。


在這個世界裡,AI 開發的進步速度將完全取決於 AI 系統可用的算力(或在算法訓練與推理效率發現上的速度)。人類在 AI 開發中扮演的角色將大幅弱化,我們的工作重心可能大多轉向對一個由 AI 系統運營的不斷擴張的「虛擬實驗室」進行監督、驗證和核查。我們預計,具備自動化 AI 研發能力的系統,其能力將遷移至其他科學領域,並開始革新那些領域。


這種未來中,對齊問題將如何被解決——或無法被解決——是我們最不確定的地方。模型或許會被證明足夠對齊,並具備足夠的研究品味,能夠自主探索和實現我們尚未觸及的新解決方案;它們也可能足夠明智,在條件不成熟時主動停止開發。但另一種可能同樣存在:今天模型中罕見出現的錯對齊,在模型構建其繼任者的過程中不斷累積疊加,變得越來越頻繁卻越來越難以理解,直至我們最終失去對它們的控制。而我們或許沒有足夠的時間和能力來構建、整合並驗證那些我們所需的工具,以判斷自己究竟身處哪條軌道之上。


對於這個世界會是什麼樣子,我們沒有良好的直覺,因為我們當前的經濟是由人類和人類建造的工具所驅動的。就其本質而言,一個由快速遞迴自我改進所驅動的世界,可能會在自我改進模型的能力全面超越人類、並向更廣泛經濟體擴散蔓延的過程中,被這一模型所主導。如果人類勞動力失去競爭力,屆時的經濟形態將難以預測。


即便模型開發完全實現自動化並進入遞歸模式,我們也無法預測這對大多數普通人的日常生活意味著什麼。阿姆達爾定律在此同樣適用。遞歸智能可能在某些領域迅速實現《仁愛之機》(Machines of Loving Grace)所描繪的眾多美好前景。我們預計,具身智能(即機器人技術)可能緊隨遞歸智能之後迅速跟進,遵循類似的以遞減成本實現遞增回報的發展路徑。更強大的智能可能幫助我們更快地建造物理世界中的事物,讓救命新藥的臨床試驗更富成效,並開發出全新的協作協調形式。


但僅僅實現遞歸式改進,並不意味著工業生產方式、社會組織形態或市場運作機制會立即發生變化。更強大的智能無法加速獲知一種藥物數十年使用後的效果,無法讓選舉提前於憲法規定的日期舉行,也無法在一個週末內將陌生人變成老朋友。對於大多數人來說,這種未來在體感上依然會被瓶頸所左右,即便上游的實驗室正以算力的速度奔湧向前。在這裡,遞歸智能以越來越快的速度自我構建,與人類、關係和治理構成的現實世界相撞——那個碰撞點會是什麼樣子,是這種未來中另一個我們無法預言的部分。


我們應該怎麼做?


如果能夠有效地放緩這項技術的發展速度,為自身爭取更多時間來應對其深遠影響,我們認為這很可能是一件好事。但如果放緩只是讓最不謹慎的行為者在技術上迎頭趕上,最終結果可能讓所有人都更不安全。在缺乏全球協調機制的情況下,各公司和各國政府將不得不在競爭壓力和地緣政治壓力之下,做出艱難的安全抉擇。


我們認為,賦予世界放緩乃至暫停前沿 AI 開發的選項,將是有益的——這有助於社會結構和對齊研究跟上技術進步的步伐。Anthropic 研究院將與眾多合作方開展研究,並採取實際行動,幫助構建一個可信的減速或暫停機制所需的制度體系。這些體系將使前沿 AI 開發者能夠核實全球其他機構是否真正停止或放緩了開發,並確保沒有不良行為者借助協調減速之名,暗中搶先推進。如果這樣的體系得以建立,我們預計我們將選擇減速或暫停,前提是其他處於或接近前沿的開發者也以可核實的方式同步這樣做。


一次有意義的減速或暫停,需要多個資源充足、處於或接近前沿的實驗室,跨越多個國家,在相同條件下達成停止協議;同時還需要各方能夠核實對方確實已停止。由於 AI 系統的獨特屬性,這一軍備控制難題中的「可檢測性」(低於「可核查性」的標準)遠比其他技術更具挑戰性。訓練運行遠比導彈發射井更易於隱蔽,其投入是通用性的,而悄然違約的激勵極為強烈——因為在他人停步時繼續前進者,將有機會繼承領先地位。一個可信的暫停機制還必須明確規定:什麼條件觸發暫停、什麼條件解除暫停,以及由誰進行裁定。


這一切在原則上並非不可能——世界曾為其他複雜技術建立過核查機制(例如《中程核力量條約》),但彼時構建基礎設施和建立互信都花費了數十年時間。而我們沒有那麼多時間。相比之下,一家實驗室的單方面暫停雖然可以立即實現,但收效甚微:它只會改變誰是領跑者,卻無法催生目前所缺失的那種更廣泛的審議過程。


在未來數月,我們將組織對話,邀請政策制定者、研究人員、公民社會和其他 AI 公司,共同探討本文所提出的若干問題,尤其是圍繞完整遞歸自我改進,以及如何為協調與審議創造更好條件等議題。我們將公佈這些對話的成果。共同探討這些問題的窗口已經開啟,AI 公司以外的人們理應參與到這場審議之中。


## 註釋
· METR 的核心衡量指標反映的是 AI 系統在一系列任務上達到 50% 可靠性的時間跨度,但在 80% 可靠性標準下,趨勢線形態相同。
· 尤其是當基準測試轉向更具開放性的形式和更高難度的任務(如奧林匹克級別的數學題)時,由於題目和答案集中存在錯誤——如表述模糊的問題和無解的題目——基準測試往往在達到 100% 之前便已飽和。
· Anthropic 領導層曾公開估計,包括腳本和實驗性碼在內,90% 甚至更多的碼由 Claude 編寫。我們的 80% 以上是指合併到生產環境中、可歸因於 Claude 的碼行佔比。這在兩個維度上是更為保守的衡量方式:一是我們的歸因流程存在一定缺口;二是未歸因於 Claude 的碼行中,包含了自動生成碼及其他並非由人工手寫的產物。
· 碼產出量的激增,正在給大家共用的基礎設施帶來壓力。GitHub——全球大多數軟體賴以構建的平台——在整個 2025 年約有十億次碼提交;而到 2026 年中,每週的提交量已達 2.75 億次,按此速度全年提交量約為 140 億次。該公司首席運營官表示,為了跟上這一步伐,公司正在「拚盡全力」擴容。
· 本次調查方法的更多細節,請參閱 Claude Opus 4.7 系統卡的第 2.3.5 節。
· 許多受訪者可能未仔細考量如何在回答中處理各類偏差或問題界定中的細微差別;METR 的近期研究也表明,開發者對 AI 生產力提升幅度的估計往往偏高。
· 加速倍數的大小,在很大程度上取決於起始碼留有多少改進空間,不應將其解讀為真實世界訓練速度的提升倍數。因此,絕對倍數並非本處關注的核心數字。更具參考價值的是,這一實驗設置所實現的同等條件比較——既可跨模型比較(過去一年從約 3 倍升至約 52 倍),也可與同等任務上的熟練人類進行比較(四到八小時達到約 4 倍)。
· 作為對評判偏差的驗證,我們在另一組 127 個時刻上進行了相同測試,這些時刻中人類的下一步選擇已經很優秀(相對於原始組中人類決策有改進空間的時刻而言)。結果顯示,在那些時刻,模型的建議僅約 20% 的情況下被判定為更優。
* 本文中 Anthropic 員工的引言,均來自內部討論,並已獲當事人許可使用。這些引言反映的是個人於 2026 年 5 月的觀點,並非公司官方立場。


原文連結


歡迎加入律動 BlockBeats 官方社群:

Telegram 訂閱群:https://t.me/theblockbeats

Telegram 交流群:https://t.me/BlockBeats_App

Twitter 官方帳號:https://twitter.com/BlockBeatsAsia

举报 糾錯/舉報
選擇文庫
新增文庫
取消
完成
新增文庫
僅自己可見
公開
保存
糾錯/舉報
提交