下載 Linnk AI
•
AI 研究助理
>
登入
洞見
-
多模態學習、時序推理、音視頻理解
OMCAT:一種理解音頻和視頻中事件轉換的新模型和數據集
本文提出了一種名為 OMCAT 的新型多模態學習模型,以及一個名為 OCTAV 的數據集,旨在解決現有多模態模型在精細化跨模態時序理解方面的局限性,特別是在關聯音頻和視頻流中的事件方面。
1