VLMを使用してSGGの表現を向上させ、印象的なパフォーマンス向上を実現するために、新しいLM推定法と確信度重視のアンサンブル戦略が効果的であることを示す。
物体検出器のマルチヘッド自己注意機構から関係情報を効果的に抽出し、物体検出とリレーション抽出の多タスク学習を行うことで、効率的かつ高精度なシーングラフ生成を実現する。
提案手法Hydra-SGGは、1段階シーングラフ生成モデルにおける学習効率の向上を目的とする。具体的には、One-to-One関係割り当てとOne-to-Many関係割り当ての組み合わせによるハイブリッド関係割り当て手法を導入し、学習に用いられる正例サンプルの数を大幅に増加させる。さらに、関係予測の重複を抑制するためのHydra Branchを提案し、全体としてより効率的な学習を実現する。
この論文では、ドローンで撮影した動画におけるオブジェクト間の時空間的な関係を捉えるための新しいデータセット「AeroEye」と、循環的な接続性を利用して長期的な依存関係を効果的にモデル化する「CYCLO」と呼ばれる新しいシーングラフ生成手法を提案しています。