本研究では、大規模言語モデルの中核となる注意メカニズムをアナログインメモリコンピューティングを用いて実装する。従来のGPUベースの実装では、キーとバリューの投影を毎ステップ読み出す必要があり、遅延とエネルギー消費の大きな問題があった。
提案手法では、揮発性のゲインセルメモリを用いて、新しいトークンの書き込みと並行して注意スコアの計算を行う。また、アナログ回路によるドット積演算と、電荷-パルス変換回路によるReLU活性化関数の実装により、アナログ領域で注意メカニズム全体を完結させる。
ハードウェア制約を考慮したアルゴリズム最適化により、チャットGPT-2モデルと同等の性能を、わずかな学習回数で達成できることを示した。提案アーキテクチャは、GPUと比較して最大2桁の高速化と5桁の省エネルギー化を実現し、大規模言語モデルの超高速低消費電力な推論を可能にする。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Nathan Lerou... a las arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19315.pdfConsultas más profundas