核心概念
NTP training exhibits implicit bias towards specific solutions, impacting optimization and generalization principles.
摘要
次のトークン予測(NTP)の訓練パラダイムにおける暗黙のバイアスに焦点を当てた研究。NTP訓練は特定の解に対して暗黙のバイアスを示し、最適化と一般化原則に影響を与える。この研究は、GDが特定の方向に収束することを明確に示し、CE損失が限界値Hに収束することを立証している。さらなる研究では、NTP分類でGDの暗黙のバイアスを探求し、最適化と一般化原則を詳細に調査する可能性がある。
統計資料
NTP-separability conditions on the data are determined for GD to attain its lower bound.
Parameters of GD projected onto a data subspace converge to a unique solution of linear equations.
The direction of the regularization path approaches the direction of the minimum Euclidean-norm classifier matrix satisfying NTP-separability.