下載 Linnk AI
•
AI 研究助理
>
登入
洞見
-
大型影像-語言模型的像素時間對齊
大型影像-語言模型的像素時間對齊
本文提出了一種名為PiTe的新型大型影像-語言模型,利用軌跡來跨越空間和時間維度對視覺和語言進行細粒度對齊,從而顯著增強了模型在視頻理解任務上的性能。
1