Core Concepts
単一の方策で多様なタスクに対応可能にするため、課題に応じて視覚特徴を適応的に変調することが重要である。
Abstract
本研究では、事前学習された大規模な視覚モデルの高品質な表現を活用しつつ、幅広いタスクに柔軟に対応できるよう、課題依存型の視覚アダプターを導入している。具体的には以下の通り:
中間層アダプターと上位アダプターを用いて、課題埋め込みに基づいて視覚特徴を変調する。
単一の多タスク方策を学習し、様々な操作、移動などのタスクに対応可能にする。
少数のデモンストレーションから未知のタスクの課題埋め込みを推定することで、新しいタスクにも適応可能。
実験では、CortexBench ベンチマークの12のタスクで高い性能を示し、さらに15の未知のタスクにも適応可能であることを確認した。
視覚特徴の課題依存型適応が重要であり、注意マップの可視化から、適応によって目標物や重要な部位への注意が高まることが分かった。
Stats
単一の多タスク方策は、個別の方策よりも全体的な性能が高い。
中間層アダプターと上位アダプターを課題埋め込みに基づいて適応させることで、性能が大幅に向上する。
課題埋め込みを乱数で与えた場合、性能が著しく低下する。
Quotes
"単一の一般的な視覚モデルと神経方策を組み合わせれば、新しい領域やタスクへの一般化が容易になるはずだ。"
"異なるタスクには異なる不変性や対称性が必要とされるため、十分に広範な変動因子を学習できるはずの表現でも、必ずしも広範なタスクに最適に機能するわけではない。"