Core Concepts
事前学習したビジョントランスフォーマーをさまざまな下流タスクに適用する際、タスク固有の情報を活用することで、パラメータ数を大幅に削減しつつ高い性能を達成できる。
Abstract
本論文は、事前学習したビジョントランスフォーマーをさまざまな下流タスクに適用する際の課題に取り組んでいる。大規模な事前学習モデルをそのまま下流タスクにファインチューニングすると、過学習の問題が生じる。一方、パラメータ数を大幅に削減する手法も提案されているが、タスク固有の情報を活用できていないため、性能が十分ではない。
本論文では、「顕著なチャンネル」と呼ばれる、タスク固有の重要なチャンネルを特定し、それらのみをファインチューニングする手法「Salient Channel Tuning (SCT)」を提案している。具体的には以下の手順で行う:
事前学習モデルに入力画像を通して、各チャンネルの重要度を算出する(Class-Aware Importance Score)
重要度の高いチャンネルのみを選択し、それらのパラメータをファインチューニングする
選択されなかったチャンネルのパラメータは固定したままとする
この手法により、ViT-B/16モデルの場合、わずか0.11Mのパラメータ数でVTAB-1Kベンチマークの19タスクのうち18タスクで全体ファインチューニングを上回る性能を達成できた。さらに、ドメイン一般化や few-shot学習でも他手法を上回る結果を示している。
提案手法は、タスク固有の情報を活用しつつ、パラメータ数を大幅に削減できる単純かつ効果的なベースラインとなっている。
Stats
提案手法SCTは、ViT-B/16モデルの場合、わずか0.11Mのパラメータ数で、VTAB-1Kベンチマークの19タスクのうち18タスクで全体ファインチューニングを上回る性能を達成した。
SCTは、ドメイン一般化や few-shot学習でも他手法を上回る結果を示している。