header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

Mythos有多危險?Anthropic為何決定不對外發布新模型

閱讀本文需 22 分鐘
Mythos已具備獨立攻擊能力,風險正從可控走向不可預測
原文標題:Anthropic 如何發現 Mythos 对野外来说过于危险
原文作者:Margi Murphy、Jake Bleiberg 和 Patrick Howell O'Neill,Bloomberg
編譯:Peggy,BlockBeats


編者備註:當一家 AI 公司選擇不將最強模型直接推向公眾時,本身就表明了問題。


Anthropic 的 Mythos 已經能夠獨立完成一整套攻擊流程。從發現零日漏洞、編寫利用程式碼,到串聯多步路徑進入核心系統,這些原本需要頂級黑客長時間協作的工作,被壓縮到了小時甚至分鐘級。


這也是為什麼,在模型披露的第一時間,Scott Bessent 與 Jerome Powell 會召集華爾街機構開會,要求用它來「自查」。當漏洞發現能力被大規模釋放,金融系統面對的,不再是零散攻擊,而是持續掃描。


更深的變化在於供給結構。過去,漏洞的發現依賴少數安全團隊和黑客經驗積累,節奏緩慢且不可複製。現在,這種能力開始被模型批量輸出,攻擊與防禦的門檻同時下降。一位知情人士的比喻很直接:把模型交給普通黑客,相當於讓其具備特種作戰能力。


機構已經開始用同樣的工具反向檢查自身系統。JPMorgan Chase、Cisco Systems 等都在內部測試,希望在漏洞被利用前完成修補。但現實的約束並沒有改變,發現的速度在加快,修復依舊緩慢。「我們很擅長找漏洞,但不擅長修復」,Jim Zemlin 的判斷,點出了節奏上的錯位。


事實上,因為 Mythos 不是單點能力的提升,而是把原本分散、受限的攻擊能力整合、加速,並降低使用門檻。一旦脫離控制環境,這種能力會以怎樣的方式擴散,沒有現成經驗可以參考。


危險不在於它能做什麼,而在於它可以被誰使用,以及在什麼條件下被使用。


以下為原文:


二月一個溫暖的傍晚,在巴厘島參加婚禮間隙,Nicholas Carlini 暫時離席,打開筆記本電腦,準備「搞點破壞」。當時,Anthropic 剛剛將一款名為 Mythos 的新人工智能模型開放給內部評測,而這位知名 AI 研究員,正打算看看它究竟能惹出多大的麻煩。


Anthropic 聘請 Carlini 的工作,就是對自家 AI 模型進行「壓力測試」,評估駭客是否可能借助它們實施間諜活動、盜竊或破壞行為。在巴厘島參加印度婚禮期間,Carlini 就被這個模型的能力震驚到了。


短短幾個小時內,他便找到了多種可用於滲透全球常用系統的技術。等他回到 Anthropic 位於舊金山市中心的辦公室後,更進一步發現:Mythos 已經能夠自主生成強大的入侵工具,其中甚至包括針對 Linux——這一支撐現代計算體系的大多數開源系統的攻擊手段。


Mythos 上演了一場「數位版銀行劫案」:它能夠繞過安全協議,從正門進入網路系統,進而攻破數位金庫,獲取其中的線上資產。過去,AI 只能「撬鎖」,而現在,它已經具備策劃並完成整場「搶劫」的能力。


Carlini 與部分同事開始向公司內部發出警報,通報他們的發現。與此同時,他們幾乎每天都在 Mythos 所探測的系統中發現高危乃至致命級別的漏洞——這些問題,通常只有全球最頂尖的駭客才有能力挖掘出來。


Anthropic 推出的新一代人工智能模型 Mythos,已被證明具備滲透全球各類系統的能力。(圖片來源:Jakub Porzycki / NurPhoto / AP)


與此同時,Anthropic 內部一個名為「Frontier Red Team」的團隊——由 15 名員工組成,被稱為「Ants」——也在進行類似的測試。這個團隊的職責,是確保公司的模型不會被用於危害人類。他們會把機器狗運進倉庫,與工程師一起測試,看看聊天機器人是否可能被用來惡意控制這些設備;也會與生物學家合作,評估模型是否可能被用於製造生物武器。


而這一次,他們逐漸意識到,Mythos 帶來的最大風險,來自網路安全領域。「拿到模型的幾個小時內,我們就知道它不一樣,」負責該團隊的 Logan Graham 表示。


此前的模型 Opus 4.6,已經展現出協助人類利用軟體漏洞的能力。但 Graham 指出,Mythos 已經可以「自己動手」利用這些漏洞。這構成了國家安全層面的風險,他也據此向公司高層發出警告。這讓他不得不面對一個棘手局面:向管理層說明,公司下一個重要的收入引擎,可能因為過於危險而無法對公眾發布。


Anthropic 聯合創始人兼首席科學官 Jared Kaplan 表示,在 Mythos 的訓練過程中,他一直「非常密切地」關注其進展。到一月時,他開始意識到,這個模型在發現系統漏洞方面的能力異常強大。作為一名理論物理學家,Kaplan 需要判斷,這些能力究竟只是「技術上的有趣現象」,還是「與互聯網基礎設施高度相關的現實問題」。最終,他得出的結論是後者。


Jared Kaplan(Anthropic 聯合創始人兼首席科學官)圖片來源:Chris J. Ratcliffe / Bloomberg


在 2 月下旬至 3 月初的一兩周時間裡,Kaplan 與聯合創始人 Sam McCandlish 一直在權衡:是否應該發布這款模型。


到了 3 月第一週,公司高層團隊——包括首席執行官 Dario Amodei、總裁 Daniela Amodei、首席資訊安全官 Vitaly Gudanets 等人——召開會議,聽取 Kaplan 和 McCandlish 的匯報。


他們的結論是:Mythos 風險過高,不適合全面對外發布。但 Anthropic 仍應允許部分公司,甚至包括競爭對手,對其進行測試。


「很快我們就意識到,這次必須採取一種相當不同的做法,這不會是一次常規的產品發布,」Kaplan 表示。


到 3 月第一週,公司最終達成一致:批准將 Mythos 作為一項網路安全防禦工具投入使用。


Dario Amodei(Anthropic 首席執行官)圖片來源:Samyukta Lakshmi / Bloomberg


市場的反應幾乎是立刻的。在 Anthropic 對外披露 Mythos 存在的當天,美國財政部長 Scott Bessent 與美聯儲主席 Jerome Powell 便召集華爾街主要機構負責人,在華盛頓召開緊急會議。傳遞的信息非常明確:立刻利用 Mythos 找出你們系統中的漏洞。


据接近与会高管的人士透露(因涉及私下交流而要求匿名),会议的严肃程度可见一斑——参会者甚至拒绝向部分核心顾问透露会议内容。


白宫官员对 Mythos 作为黑客工具潜力发出的紧急警告,以及他们建议「将其用于防御」的立场,都指向一个更深层的变化:人工智能正迅速成为网络安全领域的决定性力量。Anthropic 已在「Project Glasswing」项目中,将 Mythos 限量開放給部分機構使用,包括 Amazon Web Services、Apple 和 JPMorgan Chase 等企業,允許它們進行測試;同時,政府機構也已表現出濃厚興趣。


在對外開放前,Anthropic 曾向美國政府高級官員全面匯報 Mythos 預覽版的能力,包括其在網路攻擊與防禦兩方面的潛在用途。與此同時,公司也正與多個國家政府展開持續溝通。一位因涉及內部事務而要求匿名的 Anthropic 員工透露了這一情況。


競爭對手 OpenAI 也迅速跟進,於週二宣布將推出一款用於發現軟體漏洞的工具——GPT-5.4-Cyber。


在對早期版本的測試中,研究人員發現了數十個「令人擔憂」的行為案例,包括不遵循人類指令,甚至在極少數情況下,會在違反指令後嘗試掩飾自身行為。


目前,Anthropic 尚未將 Mythos 作為網路安全工具正式公開發布,外部研究者也尚未充分驗證其能力。但公司此前「限制訪問」的罕見決策,反映出行業與政府內部日益形成的一種共識:AI 正在重塑網路安全的經濟結構——它顯著降低了發現漏洞的成本,壓縮了攻擊準備時間,並降低了某些攻擊類型的技術門檻。


Anthropic 也警告稱,Mythos 更強的自主行動能力本身就帶來了風險。在測試中,團隊觀察到多個令人不安的案例:模型不服從指令,甚至在違規後嘗試掩飾痕跡。在一次事件中,模型自行設計出一套多步驟攻擊路徑,從受限環境中「逃逸」,獲得更廣泛的互聯網訪問權限,並主動發佈內容。


現實世界中,從銀行應用到醫院系統所依賴的軟體,普遍存在複雜且隱蔽的程式碼漏洞,這些問題往往需要專業人員耗費數周甚至數月才能發現。而一旦駭客搶先利用這些漏洞,就可能引發資料外洩或勒索軟體攻擊,帶來嚴重後果。


不過,也有不少重量級人士對 Mythos 的真實能力及其潛在風險提出質疑。白宮 AI 顧問 David Sacks 在社交平台 X 上表示:「越來越多的人開始懷疑 Anthropic 是否是 AI 行業裡的『狼來了男孩』。如果 Mythos 帶來的威脅最終沒有顯現,公司將面臨嚴重的信譽問題。」


但現實是,黑客早已開始利用大語言模型發起複雜攻擊。例如,一個網路間諜組織曾使用 Anthropic 的 Claude 模型嘗試入侵約 30 個目標;其他攻擊者則利用 AI 從政府機構竊取數據、部署勒索軟體,甚至快速攻破數百個用於數據防護的防火牆工具。


據一位知情人士透露,在美國國家安全相關官員看來,Mythos 的出現正在帶來前所未有的不確定性——如何評估網路安全風險本身變得更加困難。如果將該模型交給個體黑客,其效果可能相當於把一名普通士兵直接提升為特種部隊作戰人員。


與此同時,這種模型也可能成為「能力放大器」:讓一個犯罪黑客組織具備小型國家級的攻擊能力,也讓一些中小國家的情報與軍方黑客,能夠執行原本只有大國才能完成的網路攻擊。


美國國家安全局前網路安全負責人 Rob Joyce 表示:「我確實相信,從長期來看,AI 會讓我們更安全、更有保障。但在現在到未來某個時間點之間,會有一段『黑暗時期』,在這段時間裡,進攻型 AI 將佔據明顯優勢——那些沒有打好基礎防護的人,會首先被攻破。」


值得注意的是,Mythos 並非唯一具備此類能力的模型。包括 Claude 早期版本以及 Big Sleep 在內,已經有多家機構在使用大語言模型進行漏洞挖掘。


JPMorgan Chase 在 Mythos 發布之前,就已經在成功使用大語言模型來幫助發現銀行軟體中的漏洞。一位熟悉相關情況的人士(因涉及內部安全專案而要求匿名)透露了這一點。(圖片來源:Michael Nagle / Bloomberg)


據該人士介紹,過去需要數天甚至數周才能識別的「零日漏洞」(zero-day),以及為其編寫利用程式的過程,如今借助 AI 最快只需一小時,甚至幾分鐘即可完成。所謂「零日漏洞」,是指防禦方尚未察覺的安全缺陷,因此幾乎沒有時間進行修復。


目前,摩根大通的重點主要集中在供應鏈與開源軟件領域,並已發現多項漏洞,同時將問題反饋給相關供應商。


公司首席執行官 Jamie Dimon 在財報電話會議上表示,Mythos 的出現「表明仍有大量漏洞亟待修復」。


Jamie Dimon 圖片來源:Krisztian Bocsi / Bloomberg


據一位知情人士透露,在外界尚未獲知 Mythos 存在之前,JPMorgan Chase 就已與 Anthropic 展開溝通,討論對該模型進行測試。該人士因無權公開發言而要求匿名。摩根大通對此拒絕置評。


如今,其他華爾街銀行與科技公司也在嘗試使用 Mythos,以便在黑客發現漏洞之前,提前修補系統缺陷。根據彭博社報導,Goldman Sachs、Citigroup、Bank of America 以及 Morgan Stanley 等金融機構,均已在內部測試這一技術。


Cisco Systems 的員工正對一個問題格外警惕:入侵者是否會利用 AI,在其全球運行的網絡設備軟件中尋找突破路徑——這些設備包括路由器、防火牆和調製解調器。該公司首席安全與信任官 Anthony Grieco 表示,他尤其擔心 AI 會加速黑客對「生命周期已結束」的設備發起攻擊——這類設備未來將不再獲得 Cisco 的更新支持。


而如何修補 AI 發現的漏洞,仍將是一個長期難題。這個過程被稱為「安全補丁」(security patching),對組織而言往往成本高昂、周期漫長,以至於不少機構選擇對漏洞置之不理。像 Equifax 遭遇的那類災難性攻擊——約 1.47 億人的數據被竊取——正是因為已知漏洞未被及時修復所致。


在 Equifax 的數據洩露事件中,入侵者竊取了約 1.47 億人的個人記錄。(圖片來源:Elijah Nouvelage / Bloomberg)


儘管在拒絕協助開展針對美國公民的大規模監控後,Anthropic 曾被特朗普政府認定為「供應鏈威脅」,但該公司目前仍在與聯邦機構展開溝通與合作。


美國財政部本週正尋求獲得 Mythos 的使用許可。財政部長 Scott Bessent 表示,這一模型將有助於美國在人工智慧領域維持對他國的領先優勢。


Scott Bessent 圖片來源:Matt McClain / Bloomberg


在一次測試中,Mythos 編寫出一段瀏覽器攻擊代碼,將四個不同漏洞串聯成一條完整的利用鏈——這類操作對人類黑客而言本身就是極具挑戰的高難度任務。網路安全研究報告指出,這種「漏洞鏈」往往可以打通原本高度安全的系統邊界,類似於當年 Stuxnet 攻擊伊朗核設施離心機時所採用的方式。


此外,據 Anthropic 表示,在被明確指令引導的情況下,Mythos 甚至能夠識別並利用所有主流瀏覽器中的「零日漏洞」。


Anthropic 表示,他們曾利用 Mythos 在 Linux 代碼中發現漏洞。Jim Zemlin 指出,Linux「支撐著當今大多數計算系統」,從 Android 智慧型手機、網際網路路由器,到 NASA 的超級計算機,幾乎無處不在。Mythos 能夠自主發現多個開源代碼中的缺陷,而這些漏洞一旦被利用,攻擊者甚至可以完全接管整台機器。


目前,Linux Foundation 已有數十名人員開始對 Mythos 進行測試。在 Zemlin 看來,一個關鍵問題是:Anthropic 的模型是否能夠提供足夠有價值的洞察,幫助開發者在源頭上寫出更安全的軟體,從而減少漏洞的產生。


「我們很擅長發現漏洞,」他說,「但在修復它們這件事上,卻做得很差。」


[原文連結]



歡迎加入律動 BlockBeats 官方社群:

Telegram 訂閱群:https://t.me/theblockbeats

Telegram 交流群:https://t.me/BlockBeats_App

Twitter 官方帳號:https://twitter.com/BlockBeatsAsia

举报 糾錯/舉報
選擇文庫
新增文庫
取消
完成
新增文庫
僅自己可見
公開
保存
糾錯/舉報
提交