本論文では、大規模言語モデル(LLM)のインファレンスを効率的に行うための新しいコンパイラ「MASE」を提案している。LLMは膨大なパラメータ数を持つため、メモリサイズの削減が重要な課題となっている。量子化は、パラメータと中間値の表現を圧縮することで、計算コストとメモリコストを直接削減できる。
しかし、LLMの量子化には課題がある。LLMの値には大きな動的範囲が必要で、従来の固定小数点数や浮動小数点数では十分な精度を得られない。そこで本論文では、マイクロスケーリング(MX)形式に着目する。MX形式は、ブロック内の値が共通の要素を共有することで、効率的なメモリ表現を実現する。
MASE は、ソフトウェアとハードウェアの最適化を統合的に扱うための中間表現(IR)を提供する。この IRを使うことで、既存の最適化手法をカスタムデータ形式にも適用できる。さらに、MX形式に特化したハードウェア演算器のライブラリを提供し、それらを活用してデータフロー型のハードウェアアクセラレータを自動生成する。
実験の結果、MASE は LLMの精度を大幅に損なうことなく、ハードウェアの面積効率を平均24%改善できることを示した。これは、従来の8ビット固定小数点数を使った設計と比較したものである。MASE は、LLMのための効率的なハードウェアアクセラレータ設計に貢献する画期的なアプローチといえる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問