核心概念
本研究は、Transformerモデルにおける非線形演算の高効率な近似手法を提案する。遺伝的アルゴリズムを用いて量子化に対応した最適な近似パラメータを自動的に決定し、INT8演算を活用することで大幅な面積・消費電力の削減を実現する。
要約
本研究は、Transformerモデルにおける非線形演算の高効率な近似手法を提案している。
まず、非線形演算の近似手法としてLUT(Look-Up Table)ベースの分割線形近似を採用し、量子化に対応するため、近似パラメータの量子化を考慮した。具体的には、近似の分割点と係数をINT8形式で表現し、スケーリング係数を2の累乗数に制限することで、シフト演算による低コストな実装を可能にした。
次に、近似パラメータの最適化に遺伝的アルゴリズム(GQA-LUT)を適用した。GQA-LUTは、分割点の組み合わせを進化的に最適化し、平均二乗誤差(MSE)が最小となる近似を自動的に見つける。さらに、大きなスケーリング係数による近似精度の劣化を抑えるため、丸め誤差を変異操作に組み込むRMアルゴリズムを提案した。
実験の結果、GQA-LUTはNN-LUTなどの既存手法と比べて、オペレータレベルの精度、セマンティックセグメンテーションタスクの微調整精度ともに優れていることを示した。また、INT8ベースのLUT近似回路は、FP32/INT32ベースの高精度回路と比べて、面積で81.3~81.7%、消費電力で79.3~80.2%の大幅な削減を実現した。
統計
Transformerモデルにおける非線形演算(GELU、EXP、HSWISH、DIV、RSQRT)の近似精度(MSE)は以下の通りです。
GQA-LUT(8エントリ)のMSEは、GELU: 9.4e-5、HSWISH: 2.9e-4、EXP: 1.2e-4、DIV: 8.3e-4、RSQRT: 1.7e-3
NN-LUT(8エントリ)のMSEは、GELU: 1.3e-3、HSWISH: 1.2e-3、EXP: 6.4e-4、DIV: 2.7e-3、RSQRT: 1.1e-2