Temel Kavramlar
本文提出了一種利用多模態查詢(包含參考圖像和精煉文字)進行影片事件定位的新方法,並建立了一個新的評估基準 ICQ 及其測試資料集 ICQ-Highlight,同時探討了不同參考圖像風格和精煉文字對定位效果的影響。
Özet
利用多模態查詢定位影片中的事件
研究目標:
本研究旨在探討如何利用多模態查詢(MQ)來更有效地定位影片中的事件。與傳統僅依賴自然語言查詢(NLQ)的方法不同,MQ 結合了參考圖像和精煉文字,為使用者提供了更靈活、更直观的查詢方式。
方法:
為實現這一目標,研究者們構建了一個新的評估基準 ICQ(圖像-文字組合查詢)及其測試資料集 ICQ-Highlight。該資料集基於現有的 NLQ 影片定位資料集 QVHighlights,並為每個原始查詢構建了包含參考圖像和精煉文字的多模態語義查詢。
為評估現有影片定位模型在 MQ 設定下的效能,研究者提出了兩種多模態查詢適配(MQA)策略:
- **語言空間 MQA:**將 MQ 轉錄為 NLQ,並提出了兩種訓練自由的適配方法:
- MQ-Captioning (MQ-Cap):利用多模態大型語言模型(MLLM)為參考圖像生成描述文字,並利用大型語言模型(LLM)將精煉文字整合到描述文字中。
- MQ-Summarization (MQ-Sum):利用 MLLM 直接將參考圖像和精煉文字總結為一段文字。
- **嵌入空間 MQA:**直接將 MQ 編碼為查詢嵌入向量,無需轉錄。研究者提出了 Visual Query Encoding (VQ-Enc) 方法,僅使用參考圖像生成查詢嵌入向量。
此外,為了解決訓練資料不足的問題,研究者還提出了一種名為 SUIT 的代理微調策略,利用現有的圖像-文字資料集生成偽 MQ 數據,並對 MQ-Sum 進行微調。
主要發現:
實驗結果表明,現有的影片定位模型可以通過 MQA 方法有效地適應 ICQ 基準,證明了 MQ 在影片事件定位中的巨大潛力。具體而言:
- 儘管 MQ 和 NLQ 之間存在潜在的語義差距,但 MQ 仍然可以有效地定位影片事件。
- 即使 MQ 非常簡潔抽象(例如塗鴉圖像),模型的效能也不會受到嚴格限制,這為新的應用場景提供了可能性。
- 精煉文字可以幫助模型更好地理解參考圖像的語義,從而提高定位精度。
意義:
本研究為利用 MQ 進行影片事件定位奠定了堅實的基礎,並為未來相關研究提供了有價值的參考。
局限性和未來研究方向:
- 目前 MQ 設定下的模型效能與 NLQ 基準相比仍有差距,未來需要進一步探索如何縮小這一差距。
- 未來可以考慮將其他模態(例如音訊)整合到 MQ 中,以進一步提高定位精度。
İstatistikler
ICQ-Highlight 資料集基於 QVHighlights 驗證集構建,包含四種不同風格的參考圖像:塗鴉、卡通、電影和寫實。
研究者評估了 12 個專為 NLQ 影片事件定位設計的模型,涵蓋了專用模型、統一框架和基於 LLM 的模型。
評估指標包括召回率 R@1(IoU 閾值為 0.5 和 0.7)、平均精度均值(mAP,IoU 閾值為 0.5)以及多個 IoU 閾值下的平均值([0.5:0.05:0.95])。
Alıntılar
“A picture is worth a thousand words.”
"MQs, also known as composed queries [4, 30, 34, 77] in other contexts, offer practical benefits for video event localization."