header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

英偉達推出Nemotron3 Nano Omni模型:可統一處理視訊、音訊、圖像與文本,提升多模態推理效率

BlockBeats 消息,4 月 29 日,英伟达正式推出 Nemotron 3 Nano Omni,这是 Nemotron 3 系列的新成员,将統一的多模態推理整合至單一高效開源模型之中。英伟达表示,agentic 系統通常需要在屏幕、文檔、音訊、視訊與文本之間進行單一感知到行動迴圈的推理,但仍依賴碎片化的模型鏈——視覺、音訊、文本各自分立的技術棧。這增加了推理跳數與編排複雜度,推高了推理成本,同時削弱了跨模態上下文的一致性。Nemotron 3 Nano Omni 旨在替代這一碎片化的視覺-語言-音訊技術棧,作為 agentic 系統中的多模態感知與上下文子代理(sub-agent)發揮作用。


在準確率層面,Nemotron 3 Nano Omni 在文檔智能榜單上取得領先成績,同時在視訊與音訊理解榜單上同樣領先。在評估視訊理解模型的開放行業基準 MediaPerf 上,Nemotron 3 Nano Omni 在每項任務中均實現最高吞吐量,並在視訊級標註任務中取得最低推理成本。


性能層面,在固定的每用戶互動閾值下,對於視訊推理,Nemotron 3 Nano Omni 維持更高的總系統吞吐量,相較其他開源 omni 模型可實現高達約 9.2 倍的有效系統容量;對於多文檔推理,可實現高達約 7.4 倍的有效系統容量。英伟达表示,該模型旨在替代傳統多模型拼接架構,降低推理複雜度與成本,推動多模態 AI 在金融、醫療、科研及媒體等場景的應用。

举报 糾錯/舉報
糾錯/舉報
提交
新增文庫
僅自己可見
公開
保存
選擇文庫
新增文庫
取消
完成