핵심 개념
本文提出了一種名為PiTe的新型大型影像-語言模型,利用軌跡來跨越空間和時間維度對視覺和語言進行細粒度對齊,從而顯著增強了模型在視頻理解任務上的性能。
통계
本文提出的PiTe-143k數據集包含2086.44小時的視頻,平均每個視頻52.18秒,共有143.64萬個視頻,343.93萬個事件片段,以及102萬個物體移動軌跡。
PiTe模型在MSVD-QA數據集上的準確率達到71.6%,在ActivityNet-QA數據集上的準確率達到42.2%,在ActivityNet時間定位任務上的mIoU達到26.0%。
인용구
"本文提出了一種名為PiTe的新型大型影像-語言模型,利用軌跡來跨越空間和時間維度對視覺和語言進行細粒度對齊,從而顯著增強了模型在視頻理解任務上的性能。"
"實驗結果表明,PiTe在視頻問答、時間定位和密集字幕等任務上顯著優於現有的大型影像-語言模型,展現了更精細的事件描述和更準確的事件時間邊界。"