核心概念
本研究では、状態、物体、および組み合わせの3つの識別ブランチを同時にモデル化する新しいパラダイム「Multi-Path」を提案し、その実装である「Troika」を開発しました。Troikaは、ブランチ固有のプロンプト表現と分解された視覚特徴の整合性を取ることで、既存手法を大幅に上回る性能を達成しています。さらに、視覚表現とプロンプト表現の意味的な差異を補正するCross-Modal Tractionモジュールを導入することで、さらなる性能向上を実現しています。
要約
本研究は、組み合わせゼロショット学習(CZSL)の新しいパラダイムを提案しています。従来のCZSL手法は、事前学習済みの視覚-言語モデル(VLM)を微調整することで、組み合わせラベルとの整合性を学習していました。しかし、状態と物体の個別のモデル化が不足しているため、事前学習知識の十分な活用や、未知の組み合わせへの一般化が困難でした。
本研究では、Multi-Pathパラダイムを提案し、状態、物体、および組み合わせの3つの識別ブランチを同時にモデル化することで、これらの課題を解決しています。具体的な実装であるTroikaでは、ブランチ固有のプロンプト表現と分解された視覚特徴の整合性を取ることで、高い性能を実現しています。さらに、Cross-Modal Tractionモジュールを導入し、視覚表現とプロンプト表現の意味的な差異を補正することで、さらなる性能向上を達成しています。
実験では、3つの主要ベンチマークデータセットで、従来手法を大きく上回る性能を示しています。閉じた世界設定では最大+7.4%のHM、+5.7%のAUCの改善を、より挑戦的な開かれた世界設定では最大+3.8%のHM、+2.7%のAUCの改善を達成しています。
統計
提案手法Troikaは、閉じた世界設定で従来手法を最大+7.4%のHMと+5.7%のAUCで上回っている。
開かれた世界設定でも、Troikaは従来最良手法を最大+3.8%のHMと+2.7%のAUCで上回っている。