TokenBinder框架包括三個步驟:查詢綁定、廣視角檢索(第一階段)和聚焦視角檢索(第二階段)。
查詢綁定階段:在文本編碼過程中,引入特殊的查詢指示器,動態捕捉關鍵查詢信息,增強查詢與影片內容的交互效果。
廣視角檢索階段:利用第一個查詢指示器作為全局特徵匯總器,快速計算查詢與所有影片的餘弦相似度,初步過濾出相關性較高的候選影片。
聚焦視角檢索階段:採用聚焦視角融合網絡,利用跨注意力機制精確對齊剩餘查詢指示器與候選影片的局部特徵,並通過多層感知機計算最終相似度得分,進一步提煉細微差異。
這種一對多的粗到細對齊範式模仿人類認知過程,有效捕捉候選影片之間的細微差異,大幅提升了文本-影片檢索的準確性。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Bingqing Zha... lúc arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19865.pdfYêu cầu sâu hơn