BlockBeats 消息,4 月 29 日,英伟达正式推出 Nemotron 3 Nano Omni,这是 Nemotron 3 系列的新成员,将統一的多模態推理整合至單一高效開源模型之中。英伟达表示,agentic 系統通常需要在屏幕、文檔、音訊、視訊與文本之間進行單一感知到行動迴圈的推理,但仍依賴碎片化的模型鏈——視覺、音訊、文本各自分立的技術棧。這增加了推理跳數與編排複雜度,推高了推理成本,同時削弱了跨模態上下文的一致性。Nemotron 3 Nano Omni 旨在替代這一碎片化的視覺-語言-音訊技術棧,作為 agentic 系統中的多模態感知與上下文子代理(sub-agent)發揮作用。
在準確率層面,Nemotron 3 Nano Omni 在文檔智能榜單上取得領先成績,同時在視訊與音訊理解榜單上同樣領先。在評估視訊理解模型的開放行業基準 MediaPerf 上,Nemotron 3 Nano Omni 在每項任務中均實現最高吞吐量,並在視訊級標註任務中取得最低推理成本。
性能層面,在固定的每用戶互動閾值下,對於視訊推理,Nemotron 3 Nano Omni 維持更高的總系統吞吐量,相較其他開源 omni 模型可實現高達約 9.2 倍的有效系統容量;對於多文檔推理,可實現高達約 7.4 倍的有效系統容量。英伟达表示,該模型旨在替代傳統多模型拼接架構,降低推理複雜度與成本,推動多模態 AI 在金融、醫療、科研及媒體等場景的應用。