本文分析了單層 Transformer 模型在 Softmax 和高斯注意力機制下的損失函數,發現儘管兩種機制在特定條件下都能夠透過梯度下降達到全局最優解,但 Softmax 注意力機制更容易陷入局部最優解,而高斯注意力機制則展現出更平滑的優化過程。
본 논문에서는 트랜스포머 모델의 최적화 과정, 특히 Softmax 및 Gaussian 커널 주의 메커니즘의 영향을 분석하여, Gaussian 커널이 더 빠른 수렴과 안정적인 성능을 보이는 반면, Softmax 커널은 특정 상황에서 지역 최적화 문제에 직면할 수 있음을 보여줍니다.
Transformer モデルの学習ダイナミクス、特に勾配降下法における収束性を、ソフトマックスとガウシアンカーネルの注意機構に着目して分析した結果、ガウシアンカーネルの方が最適化の観点で優れていることが示唆された。
부호 경사 하강법(SignGD)을 사용하여 2계층 트랜스포머를 학습할 경우, 노이즈가 있는 데이터셋에서 빠른 수렴 속도를 보이지만 일반화 성능은 떨어지는 현상을 보이며, 이는 SignGD와 유사한 특성을 가진 Adam optimizer에서도 나타나는 현상으로, 데이터 품질의 중요성을 시사합니다.
本論文では、符号勾配降下法(SignGD)を用いて学習した2層Transformerは、ノイズを含むデータセットに対して高速な収束を示す一方で、汎化性能が低いことを示しています。