Core Concepts
言語説明子を用いることで、複雑な視覚シーンの理解を大幅に向上させることができる。
Abstract
本論文は、ゼロショット状況認識(Zero-Shot Grounded Situation Recognition: ZS-GSR)の課題に取り組んでいる。ZS-GSRは、画像中の行動(動詞)を識別し、関与するすべての意味役割(名詞)を検出する複雑な課題である。従来のアプローチは、クラスベースのプロンプトを使用しているが、以下の3つの限界がある:
動詞概念の曖昧さ: 動詞クラスベースのプロンプトでは、動詞の微妙な意味を十分に捉えられない。
役割位置決めの制約: 固定のテンプレートを使用した役割位置決めでは、複雑なシーンでの正確な位置決めが困難。
文脈非依存の名詞予測: クラスベースの名詞予測では、シーンの文脈を考慮できず、不適切な予測につながる。
そこで本論文は、大規模言語モデル(LLM)を活用した「言語説明子」を提案する。具体的には以下の3つの説明子を導入している:
動詞説明子: 動詞クラスの一般的な説明を生成し、動詞識別を向上。
位置決め説明子: 動詞中心のテンプレートを言い換えて、役割位置決めを改善。
名詞説明子: 動詞と役割に基づいた名詞説明を生成し、文脈依存の名詞予測を実現。
これらの説明子を各ステップに組み込むことで、複雑なシーンの理解を大幅に向上できることを示している。実験では、提案手法が既存手法を大きく上回る性能を発揮することを確認した。
Stats
動詞クラスに関連する一般的な視覚特徴を示す説明文を生成することで、動詞識別の精度が向上した。
動詞中心のテンプレートを言い換えることで、役割位置決めの精度が向上した。
動詞と役割に基づいた名詞説明を生成することで、文脈依存の名詞予測の精度が向上した。
Quotes
"言語説明子を用いることで、複雑な視覚シーンの理解を大幅に向上させることができる。"
"動詞クラスベースのプロンプトでは、動詞の微妙な意味を十分に捉えられない。"
"固定のテンプレートを使用した役割位置決めでは、複雑なシーンでの正確な位置決めが困難。"
"クラスベースの名詞予測では、シーンの文脈を考慮できず、不適切な予測につながる。"