Khái niệm cốt lõi
ビジョン言語モデルのファインチューニング時に、ランダムテキストを用いた正則化項を導入することで、ゼロショットモデルとの関係性を維持し、分布シフトに対するロバスト性を向上させる。
Tóm tắt
本研究では、ビジョン言語モデルのファインチューニング時の課題に取り組んでいる。ビジョン言語モデルをゼロショットで使用すると、優れた性能を発揮するが、ファインチューニングを行うと参照データの精度は向上するものの、分布シフトデータの精度が低下するという問題がある。
この問題に対して、著者らは以下のような取り組みを行っている:
- 従来の特徴量歪曲理論では、ビジョン言語モデルのファインチューニングにおける頑健性を十分に説明できないことを示した。
- 代わりに、ビジョン言語モデルを確率的エネルギーモデルとして捉え直し、ファインチューニング時にゼロショットモデルとの「エネルギーギャップ」が増大することを明らかにした。
- この知見に基づき、ランダムテキストを用いた正則化項を導入したLipsum-FTという新しいファインチューニング手法を提案した。
- Lipsum-FTは、ビジョン言語モデルの言語モデル部分を活用することで、ゼロショットモデルとの関係性を維持し、分布シフトデータに対するロバスト性を向上させることができる。
- DomainNetやImageNetなどのデータセットを用いた実験の結果、Lipsum-FTが既存の手法を上回る性能を示すことを確認した。
Thống kê
ファインチューニング後のモデルは、参照データの精度は向上するが、分布シフトデータの精度が低下する。
ファインチューニング後のモデルでは、分布シフトデータの特徴量の歪みが参照データよりも大きい。
ファインチューニング後のモデルでは、ゼロショットモデルとの「エネルギーギャップ」が増大する。
Trích dẫn
"ビジョン言語モデルをゼロショットで使用すると、優れた性能を発揮するが、ファインチューニングを行うと参照データの精度は向上するものの、分布シフトデータの精度が低下するという問題がある。"
"ファインチューニング後のモデルでは、ゼロショットモデルとの「エネルギーギャップ」が増大する。"