据動察 Beating監測,Intel 首席 AI 工程師 Haihao Shen 宣布,Intel 已在 Hugging Face 上傳阿里 Wan 2.2 影像模型的三款 INT4 量化版本:T2V-A14B(文生影像)、I2V-A14B(圖生影像)和 TI2V-5B(文圖混合生影像),全部用 AutoRound 壓到 W4A16。Shen 自己就是 AutoRound 這套量化工具的主要作者。INT4 把每個權重從 BF16 的 2 位元壓到 0.5 位元,權重體積約為原版四分之一。
A14B 兩款原本用 MoE 架構,總參數 27B、每步啟動 14B,官方文件稱單卡跑 720P 至少要 80GB 顯存;TI2V-5B 是密集模型,原版就能在 4090 上跑 720P@24fps。量化後的實測顯存和畫質對比 Intel 沒公布,需等第三方複現。三款模型的推理路徑也沒走主線 vLLM,README 指向 Intel 自家的 vllm-omni 分支(feats/ar-w4a16-wan22),要裝這個分支才能起服務。