핵심 개념
画像からシーングラフを生成する新しいフレームワークを提案し、視覚言語モデルの強力な能力を活用することで、従来のアプローチよりも優れたオープンボキャブラリーシーングラフ生成を実現する。
초록
本研究では、画像からシーングラフを生成する新しいフレームワークを提案している。従来のシーングラフ生成手法は、限られたカテゴリーしか扱えないという課題があった。
本手法では、視覚言語モデル(VLM)を活用することで、オープンボキャブラリーでのシーングラフ生成を実現している。具体的には以下の3つの主要な構成要素から成る:
-
シーングラフシーケンス生成: VLMを用いて、画像からシーングラフシーケンスを生成する。シーングラフシーケンスには、オブジェクト、関係、述語の情報が含まれる。
-
関係抽出: シーングラフシーケンスから、オブジェクトの位置情報と属性ラベルを抽出し、関係トリプレットを構築する。
-
下流タスクへの適用: 生成したシーングラフ表現を、視覚言語タスクの初期化に活用することで、関係知識の転移を実現する。
実験の結果、本手法はオープンボキャブラリーシーングラフ生成において優れた性能を示し、さらに下流の視覚言語タスクの性能も向上させることが確認された。
통계
画像から生成したシーングラフシーケンスには、平均87.2個の関係トリプレットが含まれ、そのうち95.3%が有効な関係である。
出力シーケンス長を1024から256に短縮しても、オープンボキャブラリーシーングラフ生成の性能は15.6/12.8 R@50/100を維持できる。
인용구
"Scene graph generation (SGG) aims to parse a visual scene into an intermediate graph representation for downstream reasoning tasks."
"To address this challenge, we introduce a new open-vocabulary SGG framework based on sequence generation."
"By doing so, we harness the strong capabilities of VLM for open-vocabulary SGG and seamlessly integrate explicit relational modeling for enhancing the VL tasks."