谷歌 Vision Banana：計算機視覺的「GPT-3 時刻」？生圖模型打敗專用視覺理解模型

据動察 Beating 監測，Google 團隊（作者包括何凱明、謝賽寧等）發表論文，提出 Vision Banana，在自家影像生成模型 Nano Banana Pro（即 Gemini 3 Pro Image）上做輕量指令微調，將其轉化為通用視覺理解模型。核心做法是把所有視覺任務的輸出統一參數化為 RGB 影像，讓分割、深度估計、表面法線估計等感知任務都通過影像生成來完成，無需為每類任務設計專用架構或訓練損失。

評測涵蓋了影像分割和 3D 幾何推斷兩大類任務。分割方面，語義分割（給圖中每個像素標註類別，如「路面」「行人」「車輛」）在 Cityscapes 上超過專用分割模型 SAM 3 4.7 個百分點；指代表達分割（根據自然語言描述找到並分割對應物體，如「左邊那隻戴帽子的狗」）同樣超過 SAM 3 Agent。但在實例分割（區分同一類別的不同個體，如分別標出圖中的五隻狗）上仍落後於 SAM 3。3D 方面，度量深度估計（從單張照片推算每個像素到相機的實際物理距離）在四個標準數據集上平均準確率 0.929，高於專用模型 Depth Anything V3 的 0.918，且完全用合成數據訓練，不使用真實深度數據，推理時也不需要相機參數。表面法線估計（推斷物體表面朝向）在三個室內基準上取得最優。

微調只是將少量視覺任務數據混入原始影像生成訓練數據，模型的影像生成能力基本不受影響：在生成質量評測中與原始 Nano Banana Pro 打平。論文認為影像生成預訓練在視覺領域的角色類似於文本生成預訓練在語言領域的角色：模型在學會生成影像的過程中，已經習得了理解影像所需的內部表徵，指令微調只是將其釋放出來。

原文鏈接

糾錯/舉報