Concepts de base
透過利用輕量級的目標追蹤模型來提取圖像間的粗略視覺對應關係,並將其作為視覺提示輸入多模態語言模型,可以顯著提升模型在需要時空推理能力的下游任務中的表現,例如 3D 場景理解、長影片理解和導航任務。
Résumé
論文綜述
本論文介紹了一種名為「粗略對應關係」(COARSE CORRESPONDENCES)的視覺提示方法,旨在增強多模態語言模型(MLLMs)的時空推理能力。
研究背景
現有的 MLLMs 在處理需要理解三維空間和時間動態的真實世界場景時面臨挑戰。雖然它們在二維視覺語言任務中表現出色,但在理解複雜的 3D 空間關係和長期時間動態方面仍有不足。
研究方法
「粗略對應關係」方法利用輕量級的目標追蹤模型來提取圖像序列中主要目標的對應關係。具體步驟如下:
- 追蹤對應關係: 使用現成的目標追蹤模型(如 Tracking Anything)提取每個輸入圖像的實例分割遮罩。
- 稀疏化幀: 為了降低計算成本,對圖像序列進行時間降採樣,僅保留少量均勻採樣的圖像及其對應的遮罩。
- 選擇粗略對應關係: 選擇在保留的幀中出現頻率和面積總和最高的目標實例,並將其作為主要對應關係。
- 視覺化粗略對應關係: 在保留的圖像上,使用標記、輪廓線或分割遮罩來視覺化識別出的主要對應關係。
實驗結果
在多個基準測試中,將「粗略對應關係」方法應用於 GPT-4V/O 等專有模型和 LLaVA 等開源模型,結果顯示該方法顯著提升了模型在以下任務中的表現:
- 3D 場景理解: 在 ScanQA 和 OpenEQA 基準測試中,該方法顯著優於現有方法,證明了其在理解 3D 空間關係方面的有效性。
- 長影片理解: 在 EgoSchema 基準測試中,該方法在零樣本學習的情況下優於現有方法,證明了其在理解長期時間動態方面的能力。
- 導航任務: 在 R2R 導航基準測試中,該方法顯著提升了模型的導航成功率,證明了其在需要時空推理能力的具體任務中的有效性。
研究結論
「粗略對應關係」方法是一種簡單而有效的方法,可以顯著提升 MLLMs 的時空推理能力。該方法無需針對特定任務進行微調,並且適用於專有模型和開源模型。
Stats
在 ScanQA 基準測試中,相較於原始的 GPT-4o 模型,「粗略對應關係」方法在 BLEU-2、METEOR、ROUGE-L 和 CIDEr 等指標上分別提升了 5.7、3.2、6.5 和 15 個百分點。
在 OpenEQA 基準測試的 EM-EQA 數據集上,「粗略對應關係」方法將 GPT-4v 和 GPT-4o 的準確率分別提升至 58.5% 和 59.1%。
在 EgoSchema 基準測試中,「粗略對應關係」方法將 GPT-4o 模型的準確率提升了 6%。
在 R2R 導航基準測試中,「粗略對應關係」方法將 GPT-4o 模型的導航成功率提升了 11%。
Citations
"We introduce COARSE CORRESPONDENCES, a simple lightweight method that enhances MLLMs’ spatial-temporal reasoning with 2D images as input, without modifying the architecture or requiring task-specific fine-tuning."
"Our method uses a lightweight tracking model to identify primary object correspondences between frames in a video or across different image viewpoints, and then conveys this information to MLLMs through visual prompting."
"We demonstrate that this simple training-free approach brings substantial gains to GPT4-V/O consistently on four benchmarks that require spatial-temporal reasoning, including +20.5% improvement on ScanQA, +9.7% on OpenEQA’s episodic memory subset, +6.0% on the long-form video benchmark EgoSchema, and +11% on the R2R navigation benchmark."