本研究は、組み合わせゼロショット学習(CZSL)の新しいパラダイムを提案しています。従来のCZSL手法は、事前学習済みの視覚-言語モデル(VLM)を微調整することで、組み合わせラベルとの整合性を学習していました。しかし、状態と物体の個別のモデル化が不足しているため、事前学習知識の十分な活用や、未知の組み合わせへの一般化が困難でした。
本研究では、Multi-Pathパラダイムを提案し、状態、物体、および組み合わせの3つの識別ブランチを同時にモデル化することで、これらの課題を解決しています。具体的な実装であるTroikaでは、ブランチ固有のプロンプト表現と分解された視覚特徴の整合性を取ることで、高い性能を実現しています。さらに、Cross-Modal Tractionモジュールを導入し、視覚表現とプロンプト表現の意味的な差異を補正することで、さらなる性能向上を達成しています。
実験では、3つの主要ベンチマークデータセットで、従来手法を大きく上回る性能を示しています。閉じた世界設定では最大+7.4%のHM、+5.7%のAUCの改善を、より挑戦的な開かれた世界設定では最大+3.8%のHM、+2.7%のAUCの改善を達成しています。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Siteng Huang... في arxiv.org 03-27-2024
https://arxiv.org/pdf/2303.15230.pdfاستفسارات أعمق