核心概念
マルチモーダル大規模言語モデルを使用して、画像内の最も重要な人物の位置と理由を注釈付けした大規模データセット「MIP-GAF」を提案する。
要約
本論文では、最も重要な人物(MIP)の位置特定に関する大規模データセット「MIP-GAF」を提案している。MIP-GAFは、マルチモーダル大規模言語モデルを使用して注釈付けされた16,550枚の画像から構成される。
データ注釈プロセスは以下の通り:
- マルチモーダル大規模言語モデルを使用して、画像内のMIPの位置と重要性の理由を自動的に注釈付ける。
- 人間の注釈者が自動注釈を検証・修正し、最終的なMIPラベルと説明を決定する。
データ分析の結果:
- MIP-GAFは、既存のMIPデータセットよりも多様な状況を網羅しており、MIP特定の難易度が高い。
- 既存のMIP特定手法をMIP-GAFに適用すると、大幅な性能低下が見られる。これは、MIP-GAFが「野生の」状況に対してより頑健な手法を必要とすることを示唆している。
- MIP-CLIP手法を提案し、MIP-GAFデータセットに適用することで、既存手法と同等の性能を達成できることを示した。
MIP-GAFは、次世代の社会状況理解手法の構築に重要な役割を果たすと考えられる。
統計
画像内の人物の平均年齢は28.42歳
男性が97,681人、女性が48,864人検出された