本論文では、大規模基盤モデルを効率的にファインチューニングする新しい手法であるBOFTを提案している。
大規模基盤モデルの性能は飛躍的に向上しているが、それに伴い膨大なパラメータ数が必要となり、モデルを頭から再訓練することが困難になってきている。そのため、既存の基盤モデルを効率的に適応させる手法が重要になっている。
現在の主な手法には、モデルファインチューニング、アダプタチューニング、プロンプトチューニングがある。その中でもモデルファインチューニングは単純かつ強力なアプローチであり、推論時のレイテンシーも増加しない。
直交ファインチューニング(OFT)は、ニューロンの間の角度を保持することで、事前学習の知識を保持しつつファインチューニングを行う手法である。しかし、OFTは直交行列のパラメータ数が多いという課題があった。
本論文では、この課題に対して、情報伝達の観点から直交行列の効率的な表現を検討し、バタフライ因子分解を用いたBOFTを提案している。BOFTは、OFTをより一般化した枠組みであり、パラメータ数を大幅に削減しつつ、優れた汎化性能を実現している。
具体的には、BOFTは直交行列をバタフライ構造の積で表現することで、O(d log d)のパラメータ数で直交行列を表現できる。これにより、OFTと比べてパラメータ効率が大幅に向上している。
さらに、バタフライ構造は多くの古典的な線形変換を自然に表現できるため、BOFTにはそれらの変換に対する有用な帰納バイアスが備わっていると考えられる。
本論文では、大規模言語モデル、ビジョン基盤モデル、テキスト-画像生成モデルなど、様々なタスクでBOFTの有効性を実証している。BOFTは既存の手法と比べて、パラメータ効率と汎化性能の両面で優れた結果を示している。
To Another Language
from source content
arxiv.org
Глибші Запити