本論文は、視覚言語モデルのプロンプト学習における汎化性の向上を目的としている。
まず、プロンプト学習の背景として、事前学習された視覚言語モデルを効率的に特定のタスクに適応させる手法であることを説明する。しかし、プロンプト学習では、タスク固有の知識を重視するあまり、一般的な知識が忘れられてしまい、新しいタスクへの汎化性が低下する問題がある。
そこで本手法では、プロンプトとメタ正則化を共同で学習することで、タスク固有の知識とタスク非依存の一般的知識のバランスを取り、プロンプト学習の汎化性を向上させる。具体的には、メタ学習アルゴリズムを用いて、正則化関数とプロンプトを同時に最適化する。さらに、メタ過学習を防ぐため、バリデーションデータを拡張して仮想タスクを生成する手法も提案する。
理論的な分析では、本手法がプロンプト学習の勾配の整列を改善することで汎化性を高めることを示す。
実験では、ベースラインとなるプロンプト学習手法と比較して、ベースクラスおよび新規クラスの両方で精度が向上することを確認した。さらに、ドメイン一般化の設定でも優れた性能を示した。
以上より、本手法は視覚言語モデルのプロンプト学習における汎化性を効果的に向上させることができると結論付けられる。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Jinyoung Par... في arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00851.pdfاستفسارات أعمق