Liu, L., Yang, D., Zhong, S., Tholeti, K. S. S., Ding, L., Zhang, Y., & Gilpin, L. H. (2024). Right this way: Can VLMs Guide Us to See More to Answer Questions? Advances in Neural Information Processing Systems, 38.
本研究旨在探討視覺語言模型 (VLM) 是否能夠識別視覺資訊的充足性,並在必要時提供方向性指引,以協助用戶調整圖像以獲取更多資訊,從而更準確地回答問題。
研究人員提出了一個新的視覺問答 (VQA) 任務,稱為「方向性指引」任務。為了評估模型在此任務上的表現,他們創建了一個基準數據集,其中包含從 VizWiz 數據集中提取的真實用戶查詢。此外,他們還提出了一個自動化的 VQA 數據增強框架,該框架通過模擬「從何處獲取資訊」的場景來生成合成訓練數據。
實驗結果顯示,當使用研究人員提出的合成訓練數據進行微調時,主流 VLM 在方向性指引任務上的表現得到了顯著提升。表現最佳的模型在準確率方面甚至超過了 GPT-4o (CoT)。
這項研究證明了縮小 VLM 在資訊評估和獲取之間差距的可能性,使其表現更接近人類。
這項研究對於提升 VLM 在真實世界應用中的效能具有重要意義,特別是在需要準確且適應性響應的輔助技術方面,例如為視障人士設計的輔助技術。
本研究主要集中在引導圖像重構方向作為概念驗證,未來可以探討其他影響 VQA 過程的因素,例如方向、曝光和焦點。此外,目前的方法還不能完全保證模型預測的可靠性,未來需要進一步完善任務設計和數據生成框架,使其更有效地適應複雜的真實世界應用。
翻譯成其他語言
從原文內容
arxiv.org
深入探究