Скачать Linnk AI
•
Научный ассистент
>
Войти
аналитика
-
大型影像-語言模型的像素時間對齊
大型影像-語言模型的像素時間對齊
本文提出了一種名為PiTe的新型大型影像-語言模型,利用軌跡來跨越空間和時間維度對視覺和語言進行細粒度對齊,從而顯著增強了模型在視頻理解任務上的性能。
1