本論文は、Transformerモデルにおけるアテンション層の高速化に焦点を当てた研究論文です。アテンション層はTransformerモデルの重要な要素ですが、その計算負荷の高さから、近年、カスタムアクセラレータの設計対象として注目されています。
従来のアテンションアクセラレータ設計(例:FLAT)は、メモリ帯域幅要件の削減には成功しているものの、以下の課題を抱えています。
本論文では、これらの課題を解決するために、新しい空間アレイアーキテクチャであるFuseMaxを提案しています。FuseMaxは、拡張アインシュタイン縮約記法を用いることで、アテンション計算を効率的に表現し、最適化します。
本論文では、拡張アインシュタイン縮約記法を用いて、アテンションアルゴリズムを記述、形式化、分類しています。これにより、カーネルが入力データを処理する際に必要なパス回数の下限を推論することが可能となり、オンチップバッファ容量やメモリトラフィックの最適化に役立ちます。
BERT、TrXL、T5、XLMを用いた評価の結果、FuseMaxは、アテンションにおいてFLATと比較して平均6.7倍の高速化と79%のエネルギー効率を達成しました。また、Transformerのエンドツーエンドの推論においては、平均5.3倍の高速化と83%のエネルギー効率を達成しました。
FuseMaxは、拡張アインシュタイン縮約記法を用いることで、アテンションアクセラレータ設計におけるメモリ帯域幅のボトルネックを解消し、高い計算効率とメモリ効率を実現する効果的な手法です。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問