Conceitos Básicos
大規模言語モデルをエッジデバイスに効率的に展開するための新しい手法「Multistage Low-rank Fine-tuning of Super-transformers (MLFS)」を提案する。エンコーダモデルでは従来手法と同等以上の性能を示しつつ、大幅な圧縮を実現できる。デコーダモデルでは同程度の圧縮は難しいが、学習時間を大幅に短縮できる。
Resumo
本論文では、大規模言語モデル(LLM)をエッジデバイスに効率的に展開するための新しい手法「Multistage Low-rank Fine-tuning of Super-transformers (MLFS)」を提案している。
まず、LLMをエッジデバイスに適用するための2つの要件を示す。1つは、様々なエッジデバイスのハードウェアに対応できること、もう1つは、デバイスの利用可能リソースの変化に応じて適切なモデルを動的に選択できることである。
従来の圧縮手法では、単一の小型モデルしか得られず、これらの要件を満たせない。そこで本手法では、スーパーネットワーク(supernet)と呼ばれる動的なモデルを活用する。スーパーネットワークは、様々な構造の小型サブネットワーク(subnet)を同時に学習できる。
具体的な手法は以下の通り:
- 教師モデルの低ランク行列を学習し、それをスーパーネットの初期化に使う(stage 0)
- スーパーネットの中から様々な構造のサブネットを抽出し、それぞれの低ランク行列を学習する(stage 1, 2)
- 学習したサブネットの中から、必要に応じて適切なサイズのモデルを選択して展開する
この手法により、エンコーダモデルでは従来手法と同等以上の性能を示しつつ、大幅な圧縮を実現できる。一方、デコーダモデルでは同程度の圧縮は難しいが、学習時間を大幅に短縮できる。
また、サブネットの収束速度を上げるための勾配スケーリング手法も提案している。
Estatísticas
大規模言語モデルは通常数十億パラメータを持つ
提案手法MLFS では、低ランク行列A, Bのみを学習すればよく、その総パラメータ数は6rdとなる(rは低ランク)
一方、全パラメータを学習する場合は、d^2個のパラメータを更新する必要がある(dは通常10^4~10^6)
Citações
"Supernet training of LLMs is of great interest in industrial applications as it confers the ability to produce a palette of smaller models at constant cost, regardless of the number of models (of different size / latency) produced."
"We show that it is possible to obtain high-quality encoder models that are suitable for commercial edge applications, and that while decoder-only models are resistant to a comparable degree of compression, decoders can be effectively sliced for a significant reduction in training time."