本研究では、画像からシーングラフを生成する新しいフレームワークを提案している。従来のシーングラフ生成手法は、限られたカテゴリーしか扱えないという課題があった。
本手法では、視覚言語モデル(VLM)を活用することで、オープンボキャブラリーでのシーングラフ生成を実現している。具体的には以下の3つの主要な構成要素から成る:
シーングラフシーケンス生成: VLMを用いて、画像からシーングラフシーケンスを生成する。シーングラフシーケンスには、オブジェクト、関係、述語の情報が含まれる。
関係抽出: シーングラフシーケンスから、オブジェクトの位置情報と属性ラベルを抽出し、関係トリプレットを構築する。
下流タスクへの適用: 生成したシーングラフ表現を、視覚言語タスクの初期化に活用することで、関係知識の転移を実現する。
実験の結果、本手法はオープンボキャブラリーシーングラフ生成において優れた性能を示し、さらに下流の視覚言語タスクの性能も向上させることが確認された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Rongjie Li,S... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00906.pdfDeeper Inquiries