Alapfogalmak
従来のオープンボキャブラリーシーングラフ生成(OVSGG)手法で使用されるテキスト分類器は、シーンの内容に適応できないため、関係検出の精度が低下する。本稿では、大規模言語モデル(LLM)を用いてシーン固有の説明を生成し、シーンの内容に適応したテキスト分類器として利用することで、OVSGGの精度を向上させる手法を提案する。
Kivonat
役割を演じる大規模言語モデルを用いたシーングラフ生成
Guikun Chen, Jin Li, Wenguan Wang. (2024). Scene Graph Generation with Role-Playing Large Language Models. Advances in Neural Information Processing Systems, 38.
本研究は、従来のオープンボキャブラリーシーングラフ生成(OVSGG)手法における、シーンに依存しないテキスト分類器の限界を克服し、シーンの内容に適応したテキスト分類器を用いることで、より高精度なOVSGGを実現することを目的とする。