Khái niệm cốt lõi
本文提出了一個大規模的多模態情境推理資料集 MSQA,並設計了基於該資料集的評估基準,用於評估模型在 3D 場景中理解和推理情境資訊的能力。
Tóm tắt
MSQA:一個用於 3D 場景多模態情境推理的大規模資料集
本文介紹了 MSQA,一個用於 3D 場景多模態情境推理的大規模資料集,以及基於該資料集的評估基準。現有的 3D 視覺語言模型大多缺乏對情境資訊的理解能力,而 MSQA 的提出旨在解決這一問題。
MSQA 包含 251K 個情境問答對,涵蓋了各種真實世界的 3D 場景。資料集採用多模態交錯輸入格式,整合了文字、圖像和點雲資料,用於描述情境和問題。
資料收集
MSQA 的資料收集過程分為三個階段:
情境採樣:從場景中採樣不同的位置、視角和周圍物體描述,構建多樣化的情境。
問答對生成:利用場景圖和大型語言模型(LLM),生成與情境相關的問題和答案。
資料精煉:對生成的問答對進行人工審核和過濾,確保資料的品質。
資料品質
為了驗證 MSQA 資料集的品質,作者進行了人工評估,結果顯示 MSQA 的品質與現有的人工標註資料集 SQA3D 相當。