Oryx MLLM是一個創新的多模態架構,旨在解決處理多樣化視覺輸入的挑戰。它包含以下核心創新:
這些設計特點使Oryx能夠靈活地處理極長的視覺上下文,如視頻,同時保持對文檔理解等任務的高識別精度。
此外,Oryx還通過增強數據集的構建和專門的訓練策略,實現了圖像、視頻和三維場景的多模態理解能力。
Oryx在多種視覺-語言基準測試中取得了出色的成績,在一些開源模型中達到了最先進的水平,包括NextQA、Perception Test、MMBench-Video和MVBench等通用視頻理解任務,以及MLVU和LongVideoBench等長視頻基準。Oryx在二維和三維空間理解任務中也表現出色,優於主流圖像型多模態模型和專門的三維模型。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Zuyan Liu, Y... kl. arxiv.org 09-20-2024
https://arxiv.org/pdf/2409.12961.pdfDybere Forespørgsler