据動察 Beating 監測,Redis 創始人 Salvatore Sanfilippo(antirez)發布了極簡端側推理引擎 ds4.c。不同於通用框架,該專案沒有任何多餘的抽象層,是一個專為 DeepSeek V4 Flash 模型與 Apple Silicon 硬體深度定制的純 Metal 圖執行器。
為了把這個擁有 2840 億參數的龐然大物塞進 128GB 記憶體的筆記本,antirez 在工程上做了極限壓榨。首先是非對稱的 2-bit 量化:僅對路由專家層進行極限壓縮(IQ2_XXS),而影響核心邏輯的共享專家層則保留高精度(Q8)。更大的創新是,他將 KV 緩存直接視為「一等磁碟公民」持久化到 SSD 中,這意味著使用 Claude Code 等代碼 Agent 處理長上下文時,後續對話能直接讀取磁碟狀態並跳過預填充階段,大幅降低記憶體開銷。
此外,該引擎還原生內建了兼容 OpenAI 標準的 API 並支持工具呼叫。這種完全放棄跨平台兼容(不支持英偉達顯卡)、僅針對單一軟硬體做極限優化的「偏執」思路,向外界證明了一件事:單兵作戰的黑客,只要把端側性能壓榨到極致,也能在消費級設備上跑通生產級的前沿 AI,不必完全受制於科技巨頭壟斷的龐大 GPU 集群。