本研究では、大規模言語モデル(LLM)の圧縮に関する重要な知見を得た。具体的には以下の通りである:
変換器のMHAサブレイヤーは明確な低ランク構造を示すが、FFNサブレイヤーはそうではないことを発見した。これは、MHAとFFNサブレイヤーを別の方法で圧縮すべきことを示唆している。
MHAサブレイヤーの重要度を入力活性化の重みで評価するAWSVD法を提案した。また、MHAサブレイヤーの重みマトリクスの低ランク度に応じて、パラメータ割り当てを最適化した。
FFNサブレイヤーには勾配フリーの構造化チャネルプルーニングを適用した。興味深いことに、最も重要度の低い1%のパラメータが重要な役割を果たすことを発見した。そのため、固定のパラメータ予算の下で、これらの重要パラメータを保持することを提案した。
提案手法LoRAPは、ゼロショットパープレキシティとゼロショットタスク分類の両方で、既存の構造化圧縮手法を大幅に上回る性能を示した。
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Guangyan Li,... lúc arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09695.pdfYêu cầu sâu hơn