Główne pojęcia
本論文では、符号勾配降下法(SignGD)を用いて学習した2層Transformerは、ノイズを含むデータセットに対して高速な収束を示す一方で、汎化性能が低いことを示しています。
Streszczenie
符号勾配降下法を用いた2層Transformerの最適化と汎化に関する考察:収束は速いが汎化性能は低い
本論文では、Adamオプティマイザの代替として効果的なSignGDを用いて、ノイズを含む線形分離可能なデータセットにおける2層Transformerの最適化と汎化性能の関係を理論的に解明することを目的としています。
データモデル:シグナルベクトルとスパースノイズベクトルを含む二値分類タスクを想定し、シグナルパッチとノイズパッチを持つデータセットを構築。
Transformerモデル:単一ヘッドのソフトマックスアテンション層と線形ヘッド層からなる2層Transformerを採用。
学習アルゴリズム:ガウス初期化を用いたSignGDを採用し、交差エントロピー損失関数を最小化。
解析手法:特徴学習フレームワークを用いて、パラメータとデータの内積のダイナミクスを分析。