本論文は、トランスフォーマーの文脈学習能力を理論的に分析したものである。主な内容は以下の通り:
少数の部分的にラベル付けされた入力例(プロンプト)から、トランスフォーマーが新しい入力に対する予測を学習する過程を分析した。
トランスフォーマーは、プロンプト内の入力と出力の関係(テンプレート関数)を学習することで、未知の入力に対する予測を行うことができることを示した。
訓練時の損失関数が線形収束することを証明し、推論時の性能も解析した。推論時には、トランスフォーマーが最適なリッジ回帰を実装していることを明らかにした。
マルチヘッド注意機構が文脈学習に必要不可欠であることを示した。ヘッド数が多すぎると収束が遅くなるが、ある程度の数のヘッドが必要である。
実験結果は理論的な分析を裏付けており、深層トランスフォーマーでも同様の性質が確認された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Tong Yang, Y... at arxiv.org 09-27-2024
https://arxiv.org/pdf/2408.10147.pdfDeeper Inquiries