視覚-言語モデルを用いた組み合わせゼロショット学習のための新しいパラダイム「Troika」
本研究では、状態、物体、および組み合わせの3つの識別ブランチを同時にモデル化する新しいパラダイム「Multi-Path」を提案し、その実装である「Troika」を開発しました。Troikaは、ブランチ固有のプロンプト表現と分解された視覚特徴の整合性を取ることで、既存手法を大幅に上回る性能を達成しています。さらに、視覚表現とプロンプト表現の意味的な差異を補正するCross-Modal Tractionモジュールを導入することで、さらなる性能向上を実現しています。