Concetti Chiave
Transformerモデルの計算量を大幅に削減するために、全結合層の代わりにメモリレイヤーを用いた新しいアーキテクチャ「MemoryFormer」を提案する。
Sintesi
MemoryFormer: 完全に接続された層を削除することによりTransformerの計算量を最小化する
書誌情報
Ding, N., Tang, Y., Qin, H., Zhou, Z., Xu, C., Li, L., Han, K., Liao, H., & Wang, Y. (2024). MemoryFormer: Minimize Transformer Computation by Removing Fully-Connected Layers. Advances in Neural Information Processing Systems, 38.
研究目的
Transformerモデルの計算量の増大は、大規模言語モデル(LLM)の応用と普及を妨げる大きな課題となっています。本研究では、Transformerモデルの計算量を大幅に削減することを目的とし、特に全結合層(FC層)の計算量削減に焦点を当てています。
方法
本研究では、FC層の代わりにメモリレイヤーを用いた新しいTransformerアーキテクチャ「MemoryFormer」を提案しています。メモリレイヤーは、多数の離散ベクトルを格納するメモリ内ハッシュテーブルで構成されています。入力トークン埋め込みに基づいて、局所性鋭敏型ハッシュ(LSH)アルゴリズムを使用して、ハッシュテーブルから関連するベクトルのサブセットが動的に取得されます。取得されたベクトルは、異なる重みで集約され、メモリレイヤーの出力を形成します。これにより、FC層における行列乗算演算を、計算量の少ないハッシュおよび集約演算で置き換えることができます。
主な結果
MemoryFormerは、従来のTransformerモデルと比較して、計算量を大幅に削減することができます。
複数のNLPベンチマークにおける実験結果では、MemoryFormerは、計算量を大幅に削減しながらも、従来のTransformerモデルと同等以上の性能を達成することが示されています。
結論
MemoryFormerは、Transformerモデルの計算量削減のための新しいアプローチを提供し、LLMの応用と普及を促進する可能性があります。
意義
本研究は、Transformerモデルの計算効率を大幅に向上させる新しいアーキテクチャを提案しており、LLMの開発と応用において重要な貢献をしています。
制限と今後の研究
メモリレイヤーで使用されるハッシュテーブルのメモリ使用量は、モデルのサイズが大きくなるにつれて増加する可能性があります。
今後の研究では、メモリ使用量をさらに削減するための手法を検討する必要があります。
Statistiche
隠れ層のサイズがd = 4096、入力シーケンスの長さがsの場合、MHA演算の浮動小数点演算量は2s²d、すべてのFC層の演算量は12sd²となる。
MemoryFormerブロックは、シーケンス長s = 2048、隠れ層サイズd = 2048の場合、ベースラインのTransformerブロックと比較して、FLOPsの約19%しか必要としない。
MemoryFormerの計算量は、約2s²d + 6/τ sd² = 2s²d + 6Ksdとなる。
τ = 8は、MemoryFormerにとって効率とメモリ使用量のバランスが良い選択肢である。
MemoryFormer-tinyモデルでは、ベースライン学習率の3倍の学習率で最高の性能が得られた。
Memory Blockの最初のレイヤーの出力埋め込みの次元数を大きくすることで、モデルの容量を増やすことができる。