核心概念
現有多模態大型語言模型 (MLLM) 在理解物件間關係方面存在不足,MMRel基準測試的提出旨在評估和增強MLLM的關係理解能力。
本研究旨在解決現有多模態大型語言模型 (MLLM) 在理解圖像中物件間關係方面的不足,並創建一個全面的基準測試來評估和增強 MLLM 的關係理解能力。
研究人員創建了一個名為 MMRel 的基準測試,其中包含超過 22,000 個問答對,涵蓋三個不同的領域和三種類型的物件間關係:空間關係、動作關係和比較關係。
MMRel 的數據來源包括真實圖像、SDXL 生成的圖像和 Dall-E 生成的圖像,以確保數據的多樣性。
研究人員採用半自動數據收集流程,使用 GPT-4V 生成關係標註,並通過人工驗證確保標註的準確性。
MMRel 採用兩種評估方法:基於 Yes/No 的判別性問題和基於 LLM 評估的生成式開放式問題。