多言語大規模言語モデルを効率的に圧縮する新しい手法「Multilingual Brain Surgeon (MBS)」を提案する。MBSは、言語の分布に応じて校正データをサンプリングすることで、低資源言語の性能低下を最小限に抑えることができる。
大規模言語モデルの知識蒸留においては、従来主張されてきた順クルバック・ライブラー発散の平均追求性と逆クルバック・ライブラー発散のモード追求性は成り立たない。代わりに、両者は同じ最適化目標を共有し、十分な epoch数で収束する。しかし実践では十分な epoch数を使えないため、順クルバック・ライブラー発散は頭部に、逆クルバック・ライブラー発散は裾野に焦点を当てる。そこで本研究は、両者の長所を組み合わせた適応的クルバック・ライブラー発散を提案し、様々なタスクで優れた性能を示す。
大規模言語モデルをエッジデバイスに効率的に展開するための新しい手法「Multistage Low-rank Fine-tuning of Super-transformers (MLFS)」を提案する。エンコーダモデルでは従来手法と同等以上の性能を示しつつ、大幅な圧縮を実現できる。デコーダモデルでは同程度の圧縮は難しいが、学習時間を大幅に短縮できる。
大規模言語モデルの層の重要度を評価し、重要度の低い層を削除することで、モデルサイズを大幅に削減しつつ性能を維持する手法を提案する。
CBQは、ブロック間の依存関係を考慮した量子化手法であり、重みと活性化の極端な外れ値を効果的に抑制し、重みの量子化誤差を適応的に補正することで、大規模言語モデルを高効率に圧縮できる。