核心概念
Oryx是一個統一的多模態架構,能夠靈活高效地處理不同尺度和長度的視覺輸入,實現圖像、視頻和三維場景的時空理解。
要約
Oryx MLLM是一個創新的多模態架構,旨在解決處理多樣化視覺輸入的挑戰。它包含以下核心創新:
- 預訓練的OryxViT模型,能夠將任意分辨率的圖像編碼為適合於大型語言模型的視覺表示。
- 動態壓縮模塊,支持1倍到16倍的可調壓縮比,實現長視頻的高效處理。
這些設計特點使Oryx能夠靈活地處理極長的視覺上下文,如視頻,同時保持對文檔理解等任務的高識別精度。
此外,Oryx還通過增強數據集的構建和專門的訓練策略,實現了圖像、視頻和三維場景的多模態理解能力。
Oryx在多種視覺-語言基準測試中取得了出色的成績,在一些開源模型中達到了最先進的水平,包括NextQA、Perception Test、MMBench-Video和MVBench等通用視頻理解任務,以及MLVU和LongVideoBench等長視頻基準。Oryx在二維和三維空間理解任務中也表現出色,優於主流圖像型多模態模型和專門的三維模型。
統計
視頻理解任務中,Oryx-7B模型的平均準確率達到81.9%,超過了72B模型的80.2%。
在長視頻理解基準MLVU上,Oryx-34B模型的得分為70.8%,超過了72B模型的66.4%和GPT-4o的64.6%。
在三維空間理解任務ScanQA上,Oryx-34B模型的METEOR、ROUHE-L和CIDEr指標分別達到15.0、37.3和72.3,優於專門的三維模型。
引用
"Oryx能夠靈活地處理極長的視覺上下文,如視頻,同時保持對文檔理解等任務的高識別精度。"
"Oryx在多種視覺-語言基準測試中取得了出色的成績,在一些開源模型中達到了最先進的水平。"
"Oryx在二維和三維空間理解任務中也表現出色,優於主流圖像型多模態模型和專門的三維模型。"