核心概念
小規模データ事前学習言語モデルに対する剪定、知識蒸留、量子化の効果を検証し、効率性と有効性の向上を確認した。
要約
本研究は、小規模データ言語モデルAfriBERTaに対する圧縮手法の効果を調査したものである。
まず、タスク非依存型および タスク依存型の知識蒸留を行い、AfriBERTaベースおよびラージモデルから小規模モデルを生成した。その結果、最大31%の圧縮率を達成しつつ、ベースラインモデルと比べて7%以内の性能低下に抑えられることを示した。また、ベースモデルから蒸留したモデルの方が、ラージモデルから蒸留したモデルよりも全体的な性能が良いことがわかった。
次に、剪定に関して、ファインチューニング前と後で比較を行った。ファインチューニング前の剪定では、60%の疎sparse化まで性能が安定的に維持されるが、それ以上の疎sparse化では徐々に性能が低下した。一方、ファインチューニング後の剪定では、50%までは性能が維持されるものの、それ以上の疎sparse化では急激な性能低下が見られた。
さらに、小規模データ事前学習モデルに対する剪定の限界を探索した。一部の言語では95%の疎sparse化でも一定の性能を維持できたが、言語によっては大幅な性能低下が見られた。これは言語の特性(複雑性など)によって剪定の影響が異なることを示唆している。
最後に、量子化の効果を検証した。LLM.int8()手法は、平均4.7%の性能低下で64.08%の圧縮率を達成し、一部の言語ではベースラインモデルを上回る性能を示した。また、推論時間は平均52.3%短縮された。
以上より、小規模データ事前学習モデルに対しても、圧縮手法によって効率性と有効性を大幅に向上できることが示された。ただし、言語の特性に応じた最適な圧縮手法の選択が重要であることも明らかになった。
統計
小規模データ事前学習モデルに対する圧縮手法の適用により、最大64.08%の圧縮率と52.3%の推論時間短縮を達成した。