本研究では、ビジョントランスフォーマー(ViT)のファインチューニングにおける課題である「忘却の問題」に取り組んでいる。ViTは事前学習後のファインチューニングによって、元の学習データに対する性能が大幅に低下する傾向がある。
著者らは、この問題に対処するため、パラメータ効率的なファインチューニング手法として「ブロック拡張」と「低ランク適応(LoRA)」の2つの手法を提案している。
ブロック拡張は、事前学習済みのViTモデルに新しいブロックを追加することで、新しいタスクへの適応と既存の知識の保持のバランスを取る手法である。一方、LORはViTのマルチヘッド自己注意機構の重み行列に低ランクの補助行列を追加することで、パラメータ効率的にファインチューニングを行う手法である。
実験の結果、ブロック拡張はCIFAR-100などの転移タスクでの高精度と、ImageNet-1Kなどの元のタスクでの性能保持の両立を実現できることが示された。一方、LORはCIFAR-10などの単純なデータセットでは性能が低下する傾向がある。
このように、ブロック拡張はViTの忘却問題を効果的に解決できる手法であることが明らかになった。一方、LORについては、さらなる検討の余地があると考えられる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問