画像からシーングラフを生成する新しいフレームワークを提案し、視覚言語モデルの強力な能力を活用することで、従来のアプローチよりも優れたオープンボキャブラリーシーングラフ生成を実現する。
従来のシーングラフ生成 (SGG) 手法は、定義済みのオブジェクトや関係カテゴリの認識に限定されていましたが、本稿では、視覚概念のアラインメントと保持を通じて、未知のカテゴリを認識できる、完全オープンボキャブラリーSGGのための新しいフレームワーク、OvSGTRを提案します。
従来のオープンボキャブラリーシーングラフ生成(OVSGG)手法で使用されるテキスト分類器は、シーンの内容に適応できないため、関係検出の精度が低下する。本稿では、大規模言語モデル(LLM)を用いてシーン固有の説明を生成し、シーンの内容に適応したテキスト分類器として利用することで、OVSGGの精度を向上させる手法を提案する。