Core Concepts
視覚言語モデルCLIPの知識を活用し、視覚特徴と言語特徴の対話型セマンティックアラインメントを行うことで、効率的なHOI検出を実現する。
Abstract
本研究は、人間-物体相互作用(HOI)検出の新しい手法ISA-HOIを提案している。HOI検出は、画像内の人間-物体ペアを検出し、その相互作用を理解することを目的とする。
提案手法の特徴は以下の通り:
視覚特徴と言語特徴のアラインメントに着目し、CLIPモデルの知識を活用する。
画像全体の文脈情報を活用するInteraction Feature (IF)モジュールを導入
動詞カテゴリのテキストエンベディングを改善するVerb Semantic Improvement (VSI)モジュールを提案
2段階の処理を行う。
1段階目: 人間-物体検出
2段階目: 相互作用認識
実験の結果、HICO-DET及びV-COCOデータセットにおいて、従来手法を上回る性能を示した。特に、ゼロショット学習設定でも優れた性能を発揮した。
提案手法は、視覚特徴と言語特徴の効果的なアラインメントにより、効率的かつ高精度なHOI検出を実現している。
Stats
画像全体の特徴は、CLIPモデルから得られる大域的トークンgvを活用する。
人間-物体ペアの特徴は、物体検出器から得られる外観特徴Avと空間特徴Svを用いる。
動詞カテゴリのテキストエンベディングは、CLIPテキストエンコーダを用いて得る。
Quotes
"我々は、相互作用特徴と動詞意味のアラインメントプロセスとして相互作用認識を捉え、CLIPモデルの知識を効果的に活用する。"
"提案するIF モジュールは、大域的および局所的特徴を統合し、相互作用特徴と動詞意味の距離を縮小することができる。"
"VSIモジュールを通じて動詞カテゴリのテキストエンベディングをさらに改善し、相互作用特徴との異質性を低減する。"