核心概念
MIA-DPO 透過將單圖像數據擴展為多圖像數據,並利用注意力機制篩選出錯誤的模型回應,有效解決了多圖像環境下視覺偏好對齊的挑戰,提升了大型視覺語言模型在多圖像任務上的性能。
摘要
MIA-DPO: 針對大型視覺語言模型的多圖像增強直接偏好優化
這篇研究論文介紹了一種名為 MIA-DPO 的新型多圖像視覺偏好對齊方法,旨在增強大型視覺語言模型 (LVLM) 處理多圖像輸入的能力。
研究背景
大型視覺語言模型 (LVLM) 在理解和回應結合圖像和文本的複雜查詢方面取得了顯著的進展。然而,現有的開源 LVLM 主要集中在單圖像問答,而在真實世界場景中,多圖像理解能力至關重要。
研究問題
將現有的單圖像偏好對齊方法擴展到多圖像場景面臨兩個主要挑戰:
- 有限的查詢提示: 與豐富多樣的單圖像數據相比,多圖像訓練數據仍然相對較少且缺乏多樣性。
- 高昂的構建成本: 傳統的單圖像 RLHF/RLAIF 方法需要人工標註或昂貴的 GPT API 來構建選擇/拒絕數據對,這在多圖像場景中成本更高。
MIA-DPO 方法
MIA-DPO 透過以下方式解決了上述挑戰:
- 從單圖像提示到多圖像提示: MIA-DPO 利用現有的單圖像數據集,透過添加無關圖像並使用語言描述來指定目標圖像,將其擴展為多圖像數據集。這種方法採用了三種數據格式:序列、網格拼貼和畫中畫,以涵蓋多種多圖像場景。
- 注意力感知選擇以篩選拒絕樣本: MIA-DPO 利用注意力機制來識別和過濾模型可能錯誤關注的拒絕回應。透過設定注意力比率閾值,該方法可以自動選擇注意力值未集中在正確圖像或區域的回應作為拒絕樣本。
- 數據清理的後選擇: 為了進一步提高數據質量,MIA-DPO 採用了後選擇步驟,使用困惑度、文本長度和編輯距離等指標來過濾噪聲樣本。
實驗結果
在五個多圖像基準測試(MMMU、BLINK、Mantis、NLVR2 和 MVBench)上的實驗結果表明,MIA-DPO 在經典的 LLaVA-v1.5 和最新的 InternLM-XC2.5 模型上都顯著提高了性能。此外,MIA-DPO 在七個單圖像基準測試上的表現也優於其他 DPO 方法,證明了其在單圖像和多圖像任務上的穩健性。
結論
MIA-DPO 為多圖像場景提供了一種有效的視覺偏好對齊方法,透過利用注意力機制和低成本的數據擴展技術,顯著提高了 LVLM 在多圖像任務上的性能,同時保持了其在單圖像任務上的能力。
統計資料
MIA-DPO 在五個多圖像基準測試上平均提升了 LLaVA-v1.5 模型 3.0% 的性能,在 InternLM-XC2.5 模型上平均提升了 4.3% 的性能。
根據注意力比率統計,對於包含 2、3、4 和 5 張圖像的序列數據,注意力比率閾值分別設定為 0.7、0.6、0.5 和 0.5。
後選擇步驟過濾掉了大約 5% 的數據。
在 LLaVa-v1.5 模型上,分別使用序列、網格拼貼和畫中畫數據進行 DPO 訓練,平均得分分別為 42.6、42.4 和 42.7,而結合三種類型的數據則可以達到 43.4 的平均得分。
引述
"The ability to understand multi-image contexts is a crucial direction for the future development of LVLMs."
"Our observation reveals that attention values of LVLMs vary considerably across different images."
"MIA-DPO is compatible with various architectures and outperforms existing methods on five multi-image benchmarks, achieving an average performance boost of 3.0% on LLaVA-v1.5 and 4.3% on the recent InternLM-XC2.5."