核心概念
Transformerの自己注意機構は単純なグラフフィルタとして解釈できるため、グラフ信号処理(GSP)の観点から再設計することで、オーバースムージング問題に対処し、表現学習能力を向上させることができる。
要約
グラフ畳み込みを用いたTransformerの自己注意機構の改善
本論文は、グラフ畳み込みを用いてTransformerの自己注意機構を改善する新しい手法、GFSA (Graph Filter-based Self-Attention) を提案しています。Transformerは自然言語処理、コンピュータビジョン、時系列モデリングなど、様々な分野で最先端の成果を上げていますが、深いTransformerモデルでは、層を重ねるごとに表現が区別できない値に収束してしまうオーバースムージング問題が発生し、性能が大幅に低下するという課題があります。
本論文では、従来の自己注意機構を単純なグラフフィルタとして解釈し、グラフ信号処理(GSP)の観点から再設計することで、この問題に対処しています。具体的には、従来の自己注意機構では隣接行列の1次多項式のみを考慮していたのに対し、GFSAでは、恒等項と2つの行列多項式項(隣接行列とそのK乗)を用いた、より一般的なグラフフィルタを学習します。
従来の自己注意機構よりも表現力が高く、オーバースムージング問題に対処できる。
計算コストを抑えるため、高次項をテイラー近似を用いて効率的に計算する。
様々な分野のTransformerに適用可能であり、性能向上に寄与する。