핵심 개념
TokenBinder提出了一種創新的兩階段文本-影片檢索框架,採用一對多的粗到細對齊範式,模仿人類認知過程中識別大型數據集中特定物品的方式,有效捕捉候選影片之間的細微差異,從而提高檢索準確性。
초록
TokenBinder框架包括三個步驟:查詢綁定、廣視角檢索(第一階段)和聚焦視角檢索(第二階段)。
查詢綁定階段:在文本編碼過程中,引入特殊的查詢指示器,動態捕捉關鍵查詢信息,增強查詢與影片內容的交互效果。
廣視角檢索階段:利用第一個查詢指示器作為全局特徵匯總器,快速計算查詢與所有影片的餘弦相似度,初步過濾出相關性較高的候選影片。
聚焦視角檢索階段:採用聚焦視角融合網絡,利用跨注意力機制精確對齊剩餘查詢指示器與候選影片的局部特徵,並通過多層感知機計算最終相似度得分,進一步提煉細微差異。
這種一對多的粗到細對齊範式模仿人類認知過程,有效捕捉候選影片之間的細微差異,大幅提升了文本-影片檢索的準確性。
통계
在MSRVTT-1K-Test數據集上,TokenBinder的文本到影片(t2v)檢索R@1得分達到52.5%,優於現有最佳方法CLIP-ViP的50.2%。
在VATEX數據集上,TokenBinder的t2v檢索R@1得分達到62.7%,優於現有最佳方法CLIP2TV的61.4%。
在MSVD數據集上,TokenBinder的t2v檢索R@1得分達到48.3%,優於現有最佳方法CLIP-ViP的47.2%。
인용구
"TokenBinder採用一對多的粗到細對齊範式,模仿人類認知過程中識別大型數據集中特定物品的方式,有效捕捉候選影片之間的細微差異,從而提高檢索準確性。"
"TokenBinder的聚焦視角融合網絡利用跨注意力機制精確對齊查詢指示器與候選影片的局部特徵,進一步提煉細微差異,大幅提升了文本-影片檢索的準確性。"