核心概念
本稿では、アテンション機構における計算のボトルネックを解消するため、再構成可能なデータフローアーキテクチャ上でバタフライスパース性を効率的に実装する、スケーラブルな多層データフローオーケストレーション手法を提案する。
要約
アテンションワークロードにおけるバタフライスパース性計算の高速化
本稿は、自己注意機構を備えたニューラルネットワーク(NN)におけるアテンションワークロードの高速化に関する研究論文である。アテンション機構は高い計算量とメモリ要件が課題となるが、本稿では、再構成可能なデータフローアーキテクチャ上でバタフライスパース性を効率的に実装する手法を提案し、この課題解決を目指す。
Transformerなどの深層学習手法は、自然言語処理やコンピュータビジョンなどの分野において大きな成果を収めている。
アテンション機構は、トークンや特徴量間の包括的な関係を捉えるが、計算量がトークン長に対して2乗で増加するという問題がある。
この問題に対処するため、スパース性を利用して計算量とメモリ要件を削減する手法が提案されている。
本稿では、構造化スパース性の中でも、計算量の削減とモデル精度の維持の両立において有効性が示されているバタフライスパース性に着目する。
GPUのような汎用的なブロック指向アーキテクチャは、密行列演算には優れているものの、バタフライスパース性計算においては、アドレッシングの非効率性が性能低下につながる。
バタフライスパース性計算では、データの再利用や並列性の活用が難しい。