核心概念
提案されたRelation Conversation(ReC)タスクは、モデルに画像内のオブジェクト間の関係を理解させることを目指しています。
摘要
All-Seeing Project V2は、画像内のオブジェクト間の関係を理解するために新しいモデルとデータセットを提案しています。ASMv2は、他の主要なMLLMよりも強力な関係理解能力を示し、Open-ended Scene Graph Generationタスクで最先端のパフォーマンスを達成しています。CRPEベンチマークでは、ASMv2が他のモデルよりも優れた関係理解能力を示しています。
統計資料
ASMv2はCRPEベンチマークで全体的な正確度52.04%を達成しました。
AS-V2データセットには127K以上の高品質なReCサンプルが含まれています。
ASMv2はPSGタスクで14.2%のRecallと10.3%のmRecallを達成しました。
引述
"Models trained on ReC can be naturally adapted to the Scene Graph Generation task."
"Our ASMv2 achieves an overall accuracy of 52.04 on this relation-aware benchmark, surpassing the 43.14 of LLaVA-1.5 by a large margin."
"Our ASMv2 demonstrates state-of-the-art performance in the OpenSGG task."