核心概念
大規模ビジョントランスフォーマーモデルのファインチューニングにおけるデータの差異による性能低下の課題に対し、空間情報と周波数情報の両方を統合した視覚フーリエプロンプトチューニング(VFPT)が有効である。
要約
VFPT: 視覚フーリエプロンプトチューニング
この研究論文では、大規模ビジョントランスフォーマーモデルのファインチューニングにおいて、事前学習データとファインチューニングデータ間に大きな差異が存在する場合に生じる性能低下の課題に対処するため、**視覚フーリエプロンプトチューニング(VFPT)**という新しい手法が提案されています。
近年、Vision Transformer [21, 22, 23, 24, 25] の登場など、ビジョンモデルの大規模化が進んでいますが、これに伴い、新たなタスクに適応させるためのファインチューニングに必要なパラメータも増大しています。この問題に対処するため、**パラメータ効率の良いファインチューニング(PEFT)**手法が注目されています。
PEFT手法の中でも、プロンプトチューニングは、自然言語処理の分野で最初に提案され [2, 3]、その後、画像分類 [5]、セグメンテーション [6, 7]、物体検出 [8] などの様々なビジョン分野にも応用され、優れた性能と低いパラメータ使用量を示しています。
しかし、プロンプトチューニングを含む多くのPEFT手法では、事前学習とファインチューニングで使用されるデータ間に大きな差異が存在する場合、性能が大幅に低下するという課題があります [9, 10]。
VFPTは、人間の視覚認知から着想を得て、空間情報と周波数情報の両方を統合することで、このデータの差異による性能低下の課題を効果的かつ効率的に解決することを目指しています。
VFPTでは、高速フーリエ変換(FFT) [18, 19, 20] を用いて、学習可能なプロンプト埋め込みに周波数領域の情報を組み込んでいます。FFTは、信号を元の領域(時間領域や空間領域)から周波数領域に、またはその逆に変換することができる強力なアルゴリズムです。
VFPTは、従来のプロンプトチューニング手法と比較して、以下の利点があります。
シンプルさ: FFTをプロンプトチューニングに適用することで、人間の視覚システムの迅速な処理能力を模倣しており、VFPTは実装が簡単です。
汎用性: 周波数領域の情報を組み込むことで、プロンプトの潜在的な埋め込みの探索空間が自然に拡張され、データの差異が異なる様々なデータセットやタスクにおいて、性能が向上します。
解釈可能性: フーリエ変換を導入することで、Transformerの入力空間内でのアテンションスコアの集中度が著しく高くなり、これが性能向上と正の相関を示すことが視覚的に示されています。