核心概念
本稿では、従来のドット積自己注意機構の課題であった表現崩壊とノイズに対する脆弱性を、入力特徴空間を文脈的に重要な方向に拡張する、マハラノビス距離に基づく楕円型近傍を用いることで克服する新しい注意機構、楕円型注意を提案する。
Stefan K. Nielsen, Laziz U. Abdullaev, Rachel S.Y. Teo, Tan M. Nguyen. (2024). Elliptical Attention. Advances in Neural Information Processing Systems, 38.
本研究は、自然言語処理やコンピュータビジョンなどの分野において、Transformer モデルの中核をなす自己注意機構の表現能力とロバスト性を向上させることを目的とする。