Moondream推出微調服務Lens，企業輸入數據即可獲得定制的VLM

据動察 Beating 監測，Moondream 上線商業化微調服務 Lens，將強化學習和監督微調封裝成按量付費 API。客戶只需提交自家業務場景的標註圖像，後台自動完成訓練，產出一個貼合該場景的專屬 VLM（視覺語言模型，能讀圖並用文字回答的 AI 模型）；官方稱十幾張圖的樣本就足以看到效果。訓練好的模型可直接通過 Moondream 雲端調用，也能用自家推理引擎 Photon 本地部署。

這是 Moondream「開源小模型打底、商業服務做增值」路線的關鍵一環。通用 VLM 到了體育直播、醫療影像、工廠質檢這類細分場景就容易水土不服，Lens 把「搭 RL 訓練流水線」這件事從客戶那邊接過來，門檻壓到幾十張標註圖加幾十美元訓練費。

公司公開了三組對比數據。NBA 直播畫面中檢測持球球員，基礎模型經常給出大量誤檢框；RL 微調後 F1 從 28% 提升至 79%，誤報框從 61 降到 2，訓練耗時 54 分鐘、費用 16.89 美元。街景照片識別所在國家的任務裡，每國 25 張微調樣本讓準確率達到 71.1%，超過 GPT-5.4 的 69.8%。醫學影像方面，微調後模型對青光眼嚴重程度分級的準確度是 GPT-5.4 的 2 倍，訓練 47 分鐘、花費 15.68 美元。

首個合作方是做網絡遙控雲臺攝像機的廠商 PTZOptics，用 Moondream 實現追蹤特定目標（例如「穿紅衣服的人」）、畫面內容清點和異常告警。Moondream 此前發布過推理引擎 Photon，官方數字是 H100 上 20 毫秒推理延遲。Lens 主攻準確度、Photon 主攻速度，加上可本地運行的開源模型本體，Moondream 把 VLM 落地的速度、精度、部署三條線湊齊了。

原文鏈接

糾錯/舉報