推理成本僅 GPT-5.5 二十分之一，Gemini 3.2 實時模型現身 Google 雲

据動察 Beating 監測，Google Cloud 控制台的模型篩選列表中出現名為 gemini-3.2-flash-lite-live-preview 的基礎模型選項。這是繼本月初在 iOS 應用構建包和 AI Studio 暴露痕跡後，該系列模型在官方平台的再次曝光。

新選項帶有 lite 與 live 後綴，表明谷歌正切分出針對極低延遲實時交互的特化版本。Abacus.AI 首席執行官 Bindu Reddy 此前透露，Gemini 3.2 Flash 的編碼與推理能力達到 GPT-5.5 的 92%，但得益於蒸餾加稀疏化技術，推理成本僅為後者的二十分之一，多數查詢延遲低於 200 毫秒。

隨著雲端介面提前搶跑，業內預計這一定位極致性價比的輕量模型將在 5 月 20 日的 Google I/O 大會上正式發布。

原文鏈接

糾錯/舉報