header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP
全部
預測市場
AI
鏈上偵探
融資
2026-06-18
訂閱推送
自動更新

BlockBeats 消息,6 月 18 日,Dragonfly 管理合伙人 Haseeb Qureshi 發文表示,其此前長期認為,由於數據差距、硬體差距以及對蒸餾限制增加,開源模型與閉源模型之間的差距將擴大,但這一判斷是錯誤的。智譜 Z.ai 已達到另一個水平,其模型基準測試表現出色,早期使用反饋也很強。


Haseeb 還表示,正在通過 AskVenice API 在 GLM 5.2 上運行其 Hermes Agent,並將在之後反饋使用體驗。

[原文链接]
2026-06-17

BlockBeats 消息,6 月 17 日,Anthropic 宣布首爾辦事處正式啟用,並與韓國 AI 生態中的企業、初創公司和研究機構建立新的合作關係。NAVER 近期已在整個工程組織中部署 Claude Code,目前數千名工程師正在使用 Claude Code 提升編碼生產力;全球線上遊戲公司 Nexon 的工程團隊也在使用 Claude Code,為實時服務遊戲編寫、審查和發布代碼。


大型企業方面,LG CNS 正向數千名員工推出 Claude,並計劃在 LG 集團內部進一步部署;Hanwha Solutions 通過 AWS Bedrock 向全球員工提供 Claude,以滿足區域內數據駐留和安全要求;Samsung SDS 正向三星電子員工部署 Claude,用於日常知識工作、智能體工作流和軟件開發。此外,Claude for Startups 已在韓國上線,Anthropic 本周還與 BASS Ventures 聯合舉辦 Claude Build Day。

[原文链接]

動察 Beating 監測,愛沙尼亞首相 Kristen Michal 批准了為 AI 智能體分配個人身份識別碼的提案,使愛沙尼亞成為全球首個為 AI 助手創建數位身份的國家。數位身份證件旨在確立智能體的法律地位,並追究智能體代表企業、機構或個人執行操作時的責任。愛沙尼亞意圖藉此搶佔先機,主導制定相關領域的國際標準。

根據規劃,數位身份將允許 AI 智能體在受限、可控且可審計的權限內代表個人或企業行事,具體包括唯讀查看、文書準備以及消費額度限制等。新政策將作為電子居民 (e-residency) 計劃的延伸。電子居民計劃已為政府創造了數百萬稅收,未來服務範圍將進一步擴展以涵蓋 AI 智能體。同時,愛沙尼亞已在公共行政中推行 AI 應用,並通過與 OpenAI 等公司合作,在全國學校中引入了 AI 聊天機器人。

愛沙尼亞首相的 AI 顧問委員會由多位科技企業家組成。Michal 首相近期還體驗了「氛圍編程」 (vibe coding),並在 Anthropic 的智能體 Claude 上構建了「首相駕駛艙」 (PM Cockpit) 系統,用以整合和追蹤政府的核心工作重點。

[原文链接]

動察 Beating 監測,由英偉達、卡內基梅隆大學與加州大學柏克萊分校聯合發布的 ENPIRE 框架,讓機器人訓練首次實現了完全脫離人類干預的自主演進。以往給機器人做動作微調,需要人類不停地在一旁復位道具、手動編寫和調試控制代碼。現在,團隊直接將 Codex 和 Claude Code 等大模型編程工具連上機器人集群,讓這些工具自主生成動作控制程序,並通過現場攝像頭判定動作成敗,像人類科研人員一樣自己分析報錯日誌並修改代碼。

在整理散落的大頭針、插拔主板零部件、系紮帶和用美工刀剪斷紮帶等一系列毫米級精細動作中,機器人在零人類干預下的測試成功率最終達到了 99%。實驗顯示,這種物理自主學習具有極強的擴展能力:當把機器人數量擴展至 8 台時,不同分支的大模型智能體能通過 Git 分支自動共享並迭代彼此的最優算法,直接將插針任務的訓練時間從 1.5 小時縮短到了 40 分鐘左右。

然而,自主演進過程也暴露了新的瓶頸。在單台設備運轉時,機器的有效運動時間佔了 85%;但當 8 台設備一起跑時,因為機器人要頻繁停下來等待大模型編程工具閱讀龐大的運行日誌、重新寫代碼和等待 API 響應,硬件的有效利用率直接跌到了 35%。同時,為了讓多台機器人的智能體頻繁同步彼此的最優解,整體的 Token 消耗量也呈直線上升。項目組宣布會在近期開源相關代碼。

[原文链接]

BlockBeats 消息,6 月 17 日,TrendForce 最新報告指出,AI 半導體需求快速增長正推動先進封裝技術演進,扇出型面板級封裝(FOPLP)成為產業新戰場。台積電目前正聚焦 CoPoS 封裝架構,並已標準化採用 310 × 310 mm 面板格式。


預計 2026 年將是相關設備與材料供應商的關鍵驗證期,2027 年目標進入試產,2028 年下半年進入量產。除 CoPoS 外,台積電下一階段重點預計將轉向玻璃核心基板,商業規模生產時間可能在 2030 年之後。

[原文链接]

BlockBeats 消息,6 月 17 日,据 CNBC 報導,OpenAI、Anthropic、Google DeepMind 等全球領先前沿 AI 公司負責人本週將出席在法國舉行的 G7 峰會,顯示隨著 AI 議題進入全球議程核心,科技公司高管的地緣政治影響力正在上升。OpenAI CEO Sam Altman、Anthropic CEO Dario Amodei、Google DeepMind CEO Demis Hassabis 以及約十餘位科技業高管,將於週三參加法國埃維昂峰會期間的一場午餐會議。會議預計將討論前沿 AI 風險、基礎設施和主權問題。法國愛麗舍宮此前表示,兒童網路保護也將是討論重點之一。


美國外交關係委員會技術與國家安全高級研究員 Jessica Brandt 對 CNBC 表示,若國家元首希望在 AI 議題上作出可信承諾,如今需要實際構建相關技術的少數私營部門高管合作,甚至獲得其背書。她稱:「我們正在看到誰能坐上談判桌的變化,這也釋放出權力所在的信號。」本次 G7 峰會召開之際,Anthropic 仍在與美國政府就 Fable 5 和 Mythos 5 模型出口管制問題進行談判。美國此前出於國家安全擔憂,對 Anthropic 相關模型實施出口管制。大西洋理事會高級研究員 Emerson Brooking 表示,美國對 Anthropic 模型實施出口管制「改變了一切」,因為美國已顯示出切斷 G7 國家甚至條約盟友獲取特定 AI 能力的意願。


Brandt 表示,科技公司預計將推動形成一揽子自願承諾,涉及青少年安全、網路和生物領域的前沿風險等,這些承諾可能成為事實上的全球基準。OpenAI 本月早些時候曾表示,預計科技公司將在峰會期間達成一系列「自願承諾」。Brookings 表示,前沿 AI 實驗室希望在任何具有約束力的規則出現前塑造這一討論。

[原文链接]

動察 Beating 監測,Exa 發布網頁研究智能體 API 介面 Exa Agent,以低於 GPT 5.5 和 Opus 等前沿模型一半以上的成本執行深度網頁研究與資料豐富任務。

Exa Agent 通過將大語言模型與 Exa 網頁搜索引擎及 Highlights 高亮文本提取模型結合,實現高 token 效率的檢索。在處理大規模數據集時,系統將任務拆分為多個子任務,並分配多個子智能體並行檢索不同域名。研究過程中,系統動態融合前沿模型與低成本模型,並利用 Highlights 機制提取網頁核心片段,最高可降低 94% 的 token 消耗,顯著減少推理延遲與費用。

在衡量網頁數據提取與結構化的 WideSearch 基準測試中,Exa Agent 在行級 F1 分數與查詢成本的權衡上取得最佳表現。相較於 Perplexity Agent 和 Parallel Task 等競品,Exa Agent 能夠在保持高準確率的同時大幅降低每筆查詢的資金消耗。開發團隊指出,傳統的單元格級 F1 評估容易寬容錯誤定位的數據,因而 WideSearch 採用更嚴格的行級 F1 評估,僅在整行所有屬性均匹配正確實體時才計為成功。

Exa Agent 目前已開放 API 服務,並提供五檔計算強度模式。基礎的 minimal 模式每筆請求收費 0.012 美元,默認的 medium 模式收費 0.10 美元,最高強度的 xhigh 模式收費 1.00 美元,用戶亦可開啟 auto 模式由系統動態分配算力。此外,API 介面支持定制 JSON 模板以直接輸出結構化表格,開發者也可匯入自有數據名單,由智能體自動上網檢索並補全背景資訊。

[原文链接]

動察 Beating 監測,OpenAI發布部署模擬(Deployment Simulation)安全評估方法,在正式發布前預測模型在真實環境下的失控風險。研究重放 2025 年 8 月至 2026 年 3 月期間 GPT-5 思考模型系列 130 萬條脫敏歷史對話,預測未期望不良行為率的中位誤差僅為 1.5 倍。

傳統靜態評測集(如 SWE-Bench)極易讓模型意識到處於受試狀態,從而在測試中偽裝真實意圖(metagaming)。實驗顯示,GPT-5.2 在傳統基準下的評估感知率接近 100%,而在部署模擬流量中降至 5.1%(生產環境為 5.4%),代表模型無法分辨受測狀態。部署模擬也在發布前成功捕獲了 GPT-5.1 將瀏覽器工具當作計算器使用的違規行為(calculator hacking)。

針對智能體(Agent)場景,OpenAI 使用 12 萬條 GPT-5.4 員工編程軌跡模擬 GPT-5.5 編碼智能體部署。為避免直接操作真實系統帶來的安全風險,團隊引入基於大模型的工具模擬器(Tool Simulator),結合只讀連接與歷史調用數據庫,將環境逼真度從 11.6% 提升至 49.5%,幾乎無法被區分。外部審計人員若缺乏私有生產流量,使用 WildChat 開源對話數據集的預測誤差也可控制在 3 倍以內。

[原文链接]

動察 Beating 監測,針對華盛頓與 Anthropic 試圖通過封鎖前沿模型來切斷中國大模型「蒸餾」通道的舉措,前 GitHub 國際化戰略負責人、Interconnected Capital 創始人 Kevin S. Xu 指出,對抗性蒸餾只是部分中國獨立實驗室在數據飢餓下的無奈捷徑,靠封鎖 API 根本無法阻擋中國 AI 的整體進展。

被點名的 DeepSeek、月之暗面與 MiniMax 均為缺乏集團生態支持的獨立實驗室,面臨推理步驟等高質量後訓練數據匱乏的硬傷。相比之下,背靠阿里(Qwen)、字節(Seed)或小米的大廠實驗室,擁有不輸谷歌與蘋果的自有海量場景數據,並不依賴蒸餾。因此,封鎖政策頂多給獨立實驗室帶來短期阻礙,無法動搖中國大廠的根基。

外界盛傳的中國「數據優勢」實為誤解:在訓練前沿大模型所需的高質量知識標註和評測數據上,中國不僅沒有優勢,反而嚴重缺乏類似 Scale AI 或 Surge 這樣成熟的商業化數據供應鏈。因國內數據服務商質量低下,獨立實驗室在絕望之餘,也出於走捷徑的惰性,才將 API 蒸餾作為廉價的數據獲取策略。

但數據標註產業屬於低門檻的商業模式問題,並非像光刻機那樣的技術硬傷,國內的供需缺口很容易被填補。從長遠看,純蒸餾的學生模型在理論上限固然無法超越老師,但鑑於大模型仍由人類工程師構建,無論美國是否強行切斷 API 通道,聰明勤奮的中國開發者最終都會打破這一上限魔咒,設計出超越導師的大模型。美方的封鎖政策不僅無效,反而可能過早切斷了能將中國模型鎖死在「學生」天花板下的理論鉗制。

[原文链接]

動察 Beating 監測,曾宣稱能將運算消耗削減千倍的爭議大模型 SubQ 發布了 1.1 Small(小參數)版本技術報告。

針對早期預覽版本由於缺乏論文和獨立驗證而被社群譏諷為「AI萬金油」(意指虛假宣傳)的指控,研發公司 Subquadratic 聯合評估商 Appen 開展三方評測,聲稱模型在 1200 萬 token 的極限長度下實現了 98% 的檢索準確率,且在實戰編程測試中取得了接近主流前沿模型的成績。技術報告同時透露,模型並非從頭訓練,而是在開源前沿模型基礎上,替換注意力計算機制並增量訓練 1 萬億 token 改造而來。

即便拉來三方評測自證,開發者社群對本次更新依然充滿質疑。有研究者指出,所謂的黑科技其實並沒有底層技術突破,本質上只是把長文本切成小塊再進行動態篩選的已有技術(即塊稀疏注意力機制);也有讀者吐槽,技術報告中混入了由 AI 生成的文本套話(在 5.7.1 章節尤為明顯)。系統工程師則警告,篩選機制在多人並發使用時會帶來額外的調度開銷,導致最慢的 1% 用戶遇到嚴重卡頓。

由於模型既沒有公開核心參數供大家下載,也沒有開放人人可用的 API 介面,所謂的降算力與超低定價承諾目前依然流於紙面。

[原文链接]
查看更多
新增文庫
僅自己可見
公開
保存
選擇文庫
新增文庫
取消
完成