本論文は、ゼロショット状況認識(Zero-Shot Grounded Situation Recognition: ZS-GSR)の課題に取り組んでいる。ZS-GSRは、画像中の行動(動詞)を識別し、関与するすべての意味役割(名詞)を検出する複雑な課題である。従来のアプローチは、クラスベースのプロンプトを使用しているが、以下の3つの限界がある:
動詞概念の曖昧さ: 動詞クラスベースのプロンプトでは、動詞の微妙な意味を十分に捉えられない。
役割位置決めの制約: 固定のテンプレートを使用した役割位置決めでは、複雑なシーンでの正確な位置決めが困難。
文脈非依存の名詞予測: クラスベースの名詞予測では、シーンの文脈を考慮できず、不適切な予測につながる。
そこで本論文は、大規模言語モデル(LLM)を活用した「言語説明子」を提案する。具体的には以下の3つの説明子を導入している:
これらの説明子を各ステップに組み込むことで、複雑なシーンの理解を大幅に向上できることを示している。実験では、提案手法が既存手法を大きく上回る性能を発揮することを確認した。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jiaming Lei,... alle arxiv.org 04-25-2024
https://arxiv.org/pdf/2404.15785.pdfDomande più approfondite