header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

燒百億買GPU變笑話?Redis之父手搓極簡引擎,128GB Mac跑通 DeepSeekV4

動察 Beating 監測,Redis 創始人 Salvatore Sanfilippo(antirez)發布了極簡端側推理引擎 ds4.c。不同於通用框架,該專案沒有任何多餘的抽象層,是一個專為 DeepSeek V4 Flash 模型與 Apple Silicon 硬體深度定制的純 Metal 圖執行器。


為了把這個擁有 2840 億參數的龐然大物塞進 128GB 記憶體的筆記本,antirez 在工程上做了極限壓榨。首先是非對稱的 2-bit 量化:僅對路由專家層進行極限壓縮(IQ2_XXS),而影響核心邏輯的共享專家層則保留高精度(Q8)。更大的創新是,他將 KV 緩存直接視為「一等磁碟公民」持久化到 SSD 中,這意味著使用 Claude Code 等代碼 Agent 處理長上下文時,後續對話能直接讀取磁碟狀態並跳過預填充階段,大幅降低記憶體開銷。


此外,該引擎還原生內建了兼容 OpenAI 標準的 API 並支持工具呼叫。這種完全放棄跨平台兼容(不支持英偉達顯卡)、僅針對單一軟硬體做極限優化的「偏執」思路,向外界證明了一件事:單兵作戰的黑客,只要把端側性能壓榨到極致,也能在消費級設備上跑通生產級的前沿 AI,不必完全受制於科技巨頭壟斷的龐大 GPU 集群。

举报 糾錯/舉報
糾錯/舉報
提交
新增文庫
僅自己可見
公開
保存
選擇文庫
新增文庫
取消
完成