英偉達推出Nemotron3 Nano Omni模型：可統一處理視訊、音訊、圖像與文本，提升多模態推理效率

BlockBeats 消息，4 月 29 日，英伟达正式推出 Nemotron 3 Nano Omni，这是 Nemotron 3 系列的新成员，将統一的多模態推理整合至單一高效開源模型之中。英伟达表示，agentic 系統通常需要在屏幕、文檔、音訊、視訊與文本之間進行單一感知到行動迴圈的推理，但仍依賴碎片化的模型鏈——視覺、音訊、文本各自分立的技術棧。這增加了推理跳數與編排複雜度，推高了推理成本，同時削弱了跨模態上下文的一致性。Nemotron 3 Nano Omni 旨在替代這一碎片化的視覺-語言-音訊技術棧，作為 agentic 系統中的多模態感知與上下文子代理（sub-agent）發揮作用。

在準確率層面，Nemotron 3 Nano Omni 在文檔智能榜單上取得領先成績，同時在視訊與音訊理解榜單上同樣領先。在評估視訊理解模型的開放行業基準 MediaPerf 上，Nemotron 3 Nano Omni 在每項任務中均實現最高吞吐量，並在視訊級標註任務中取得最低推理成本。

性能層面，在固定的每用戶互動閾值下，對於視訊推理，Nemotron 3 Nano Omni 維持更高的總系統吞吐量，相較其他開源 omni 模型可實現高達約 9.2 倍的有效系統容量；對於多文檔推理，可實現高達約 7.4 倍的有效系統容量。英伟达表示，該模型旨在替代傳統多模型拼接架構，降低推理複雜度與成本，推動多模態 AI 在金融、醫療、科研及媒體等場景的應用。

原文鏈接

糾錯/舉報