本研究では、ビジョントランスフォーマー(ViT)の事前学習モデルを効率的に下流タスクに適応させるための手法HEAT(Head-level Efficient Adaptation with Taylor-expansion importance score)を提案している。
具体的には以下の取り組みを行っている:
ViTの多頭自己注意機構における注意ヘッドの冗長性に着目し、各ヘッドの重要度をTaylor展開を用いて効率的に評価する手法を提案した。
重要度の低い注意ヘッドを選択的にマスクすることで、パラメータ効率と性能を向上させることができる。
3つの異なる重要度計算手法を提案し、それぞれの特徴を検証した。
ViTだけでなく階層型トランスフォーマーであるSwin Transformerにも適用し、汎用性を示した。
VTAB-1Kベンチマークにおいて、提案手法HEAT が既存のパラメータ効率的転移学習手法を上回る性能を達成した。
以上の取り組みから、ViTの多頭自己注意機構における冗長性を効率的に削減することで、パラメータ効率と性能を両立できることが示された。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yibo Zhong,Y... a las arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.08894.pdfConsultas más profundas