核心概念
Transformerにおけるセルフアテンション機構において、アテンションマスクはランク落ちの速度を調整するものの、完全に防ぐことはできない。一方、LayerNormは適切な値行列と組み合わせることで、トークン表現の完全なランク落ちを防ぎ、多様な表現能力を実現する。
タイトル: アテンションマスクとLayerNormがTransformerに果たす役割について
著者: Xinyi Wu1, Amir Ajorlou1, Yifei Wang2, Stefanie Jegelka3,2, Ali Jadbabaie1
所属: 1MIT LIDS, 2MIT CSAIL, 3TU Munich
本論文は、Transformerにおけるセルフアテンション機構において、アテンションマスクとLayerNormがトークンの長期的な挙動、特にランク落ち現象に与える影響を理論的に解明することを目的とする。