Core Concepts
大規模言語モデルの微調整と圧縮を効率的に行うため、構造化されていない疎性とニューラルロー ランク アダプター検索を統合したアプローチを提案する。
Abstract
本論文では、大規模言語モデル (LLM) の微調整と圧縮を効率的に行うための新しいアプローチ「Shears」を提案している。
Shearsは以下の3つのステップから構成される:
非構造化疎性化: 事前学習済みLLMに対して、Wandaアルゴリズムを用いて非構造化の疎性を導入する。
スーパーアダプター学習: 疎性化されたモデルにエラスティックなロー ランク アダプターを統合し、ニューラルロー ランク アダプター検索 (NLS) アルゴリズムを用いてタスク特化型のスーパーアダプターネットワークを学習する。
サブアダプター検索: ヒューリスティックと hill-climbing アルゴリズムを用いて、スーパーアダプターネットワークからサブアダプター構成を効率的に探索する。
実験の結果、Shearsは既存の手法と比べて高い疎性レベルを維持しつつ、同等以上の精度を達成できることが示された。特に、数学推論タスクでは、既存手法を上回る性能を示した。また、サブアダプター構成の探索においても、効率的な手法を提案している。
全体として、Shearsは大規模言語モデルの微調整と圧縮を効率的に行うための実用的なソリューションを提供している。
Stats
疎性レベル40%のLLaMA7Bモデルでは、既存手法と同等の精度を維持しつつ、パラメータ数が約1.91倍削減された。
疎性レベル50%のLLaMA13Bモデルでは、既存手法と同等の精度を維持しつつ、パラメータ数が約1.94倍削減された。
Quotes
"Shearsは、モデル圧縮とPEFTの実用的な解決策を提供する。"
"Shearsは、非構造化疎性化、スーパーアダプター学習、サブアダプター検索の3つの段階から成る。"
"実験の結果、Shearsは高い疎性レベルを維持しつつ、同等以上の精度を達成できることが示された。"