核心概念
MAMA 提出了一種新的視頻語言表徵學習方法,通過使用帶有減法角度邊緣的對比目標來規範跨模態表徵,以達到完美的相似性,並利用多層感知器 (MLP) 參數化的加權函數來適應不均勻的概念分佈,從而提高視頻語言表徵學習的效能。
摘要
本文介紹了一種新的視頻語言表徵學習方法——MAMA(元優化角度邊緣對比學習)。MAMA 旨在解決現有視頻文本數據集中存在的兩個關鍵問題:
**對齊不完美:**視頻和文本描述之間經常存在細節上的差異,導致跨模態語義表徵不準確。
**概念分佈不均勻:**數據集中某些主題的樣本數量過多,而其他主題的樣本數量過少,導致模型在不同主題上的表現不一致。
MAMA 的解決方案
為了應對這些挑戰,MAMA 提出了以下解決方案:
**減法角度邊緣對比學習:**在角度空間中,MAMA 在正樣本對之間引入了一個減法邊緣。這種方法可以衰減梯度範數,從而規範正樣本對的相似度,防止它們達到完美的相似性,從而更準確地反映視頻和文本之間的語義相似性。
**MLP 參數化的加權函數:**為了適應不均勻的概念分佈,MAMA 使用 MLP 參數化的加權函數將損失值映射到樣本權重。這種動態調整策略使模型能夠在訓練過程中調整其關注點,更加關注那些更難學習的樣本。
**大型視覺語言模型 (LVLM) 數據增強:**為了進一步提高數據集的多樣性,MAMA 利用現成的大型視覺語言模型來增強下游視頻文本數據。具體來說,MAMA 首先使用密度峰值聚類方法提取關鍵幀,然後將這些關鍵幀拼接成一張網格圖像,最後將該圖像和相關的文本提示輸入到 LVLM 中,生成相應的文本描述。
實驗結果
實驗結果表明,MAMA 在常用的視頻問答和文本視頻檢索數據集上均取得了優於現有方法的性能。
總結
MAMA 通過引入減法角度邊緣對比學習、MLP 參數化的加權函數和 LVLM 數據增強等技術,有效地解決了視頻語言表徵學習中的數據質量問題,顯著提高了模型在多項下游任務上的性能。
統計資料
MAMA 在 MSRVTT 數據集上的開放式視頻問答任務中,準確率比 LaViLa 提高了 1.5%。
MAMA 在 MSVD 數據集上的開放式視頻問答任務中,準確率比 LaViLa 提高了 2.1%。
MAMA 在 TGIF-Frame 數據集上的開放式視頻問答任務中,準確率比 LaViLa 提高了 3.7%。
MAMA 在 NExT-QA 數據集上的多選視頻問答任務中,準確率比 LaViLa 提高了 1.5%。
MAMA 在 Causal-VidQA 數據集上的多選視頻問答任務中,準確率比 LaViLa 提高了 1.2%。