本論文では、大規模言語モデル(LLM)の推論を高速化するための手法を提案している。
まず、アクティベーションの量子化手法MX-OPALを提案した。MX-OPALは、マイクロスケーリングデータフォーマットを利用し、アクティベーション内のアウトライアを一部保持しつつ、大部分の値を低ビット整数で表現する。これにより、アクティベーションの量子化誤差を抑えつつ、効率的な整数演算が可能となる。
次に、MX-OPALに最適化したハードウェアアクセラレータOPALを提案した。OPALは、アウトライアを処理するFP演算ユニットと、大部分の値を処理する高効率なINT演算ユニットから構成される。さらに、ログ2ベースの近似ソフトマックス演算を導入し、シフトと減算のみで実現することで、大幅な電力効率の向上を実現した。
評価の結果、OPALは、重み量子化のみを行う手法と比べて、エネルギー効率を1.6倍~2.2倍向上させつつ、精度劣化を1PPL未満に抑えられることを示した。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Jahyun Koo, ... pada arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.05902.pdfPertanyaan yang Lebih Dalam