核心概念
現有多模態大型語言模型 (MLLM) 在處理需要精確空間推理和物件定位的視覺密集型任務時,存在視覺理解能力不足的問題,本文提出的 Panther 模型透過整合指令引導的視覺提示,有效提升了 MLLM 在這些任務上的表現。
論文資訊
標題:Panther: Illuminate the Sight of Multimodal LLMs with Instruction-Guided Visual Prompts
作者:Honglin Li, Yuting Gao, Chenglu Zhu, Jindong Chen, Ming Yang, Lin Yang
機構:浙江大學、西湖大學、螞蟻集團
研究目標
本研究旨在解決現有多模態大型語言模型 (MLLM) 在處理視覺密集型任務時,普遍存在的視覺理解能力不足的問題,特別是在需要精確空間推理和物件定位的任務上。
方法
本研究提出了一種名為 Panther 的新型 MLLM 架構,其核心包含三個模組:
Panther-VE:透過將使用者指令轉化為可學習的視覺提示,並將其整合到視覺編碼器中,從而提取與指令更相關的視覺特徵。
Panther-Bridge:在多輪對話場景中,透過過濾不同輪次間冗餘的視覺標記,減少訓練過程中的計算量。
Panther-Decoder:採用交錯訓練模式,以適應 Panther-VE 產生的獨特視覺特徵,並與各種 LLM 解碼器架構相容。
主要發現
Panther 在多個基準測試中,包括視覺問答、指令遵循和視覺密集型任務,均取得了優於現有 MLLM 的效能。
透過整合指令引導的視覺提示,Panther 能夠更準確地定位和關注圖像中與指令相關的細節,有效解決了現有 MLLM 在視覺理解上的不足。
Panther-Bridge 模組有效降低了多輪訓練的計算成本,提升了模型的訓練效率。
結論
本研究提出了一種有效的方法來解決現有 MLLM 在視覺理解上的不足,特別是在處理需要精確空間推理和物件定位的視覺密集型任務時。Panther 模型透過整合指令引導的視覺提示,顯著提升了 MLLM 在這些任務上的表現,為未來 MLLM 的研究和應用奠定了基礎。
研究限制與未來方向
本研究主要關注於提升 MLLM 在視覺理解上的能力,未來可以進一步探討如何將 Panther 應用於其他多模態任務,例如圖像生成、視頻理解等。
Panther-Bridge 模組的效能可能受到相似性度量指標和閾值設定的影響,未來可以進一步研究更優化的標記過濾策略。
統計資料
LLaVA-1.5 with Llama 3-8B 在 VQAv2 和 GQA 上的準確率分別為 79.7% 和 63.3%。
Panther with Vicuna-7B 在 VQAv2 和 GQA 上的準確率分別為 80.8% 和 65.2%。
Panther with Llama 3-8B 在 MMVP、RWQA、CV-Bench 2D 和 3D 上的準確率分別為 34.7%、57.3%、60.6% 和 68.9%。