本論文では、大規模言語モデル(LLM)の推論を高速化するための手法を提案している。
まず、アクティベーションの量子化手法MX-OPALを提案した。MX-OPALは、マイクロスケーリングデータフォーマットを利用し、アクティベーション内のアウトライアを一部保持しつつ、大部分の値を低ビット整数で表現する。これにより、アクティベーションの量子化誤差を抑えつつ、効率的な整数演算が可能となる。
次に、MX-OPALに最適化したハードウェアアクセラレータOPALを提案した。OPALは、アウトライアを処理するFP演算ユニットと、大部分の値を処理する高効率なINT演算ユニットから構成される。さらに、ログ2ベースの近似ソフトマックス演算を導入し、シフトと減算のみで実現することで、大幅な電力効率の向上を実現した。
評価の結果、OPALは、重み量子化のみを行う手法と比べて、エネルギー効率を1.6倍~2.2倍向上させつつ、精度劣化を1PPL未満に抑えられることを示した。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Jahyun Koo, ... klokken arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.05902.pdfDypere Spørsmål