Core Concepts
訓練データセットにおける初期段階でのニューロンの方向性ダイナミクスを分析し、入力データとの良好な整合性を達成するために必要な時間に上限を提供します。
Abstract
この論文は、二層ReLUネットワークを使用してバイナリ分類器をトレーニングする問題に焦点を当てています。訓練データセットはよく分離された入力ベクトルを考慮しています。ニューロンの方向性ダイナミクスの注意深い分析により、すべてのニューロンが入力データと良好な整合性を達成するまでにかかる時間についてO(log n√µ)という上限値を提供します。MNISTデータセットでの数値実験は理論的結果と一致しています。
Abstract:
二層ReLUネットワークでバイナリ分類器を訓練する問題に焦点。
訓練データセットはよく分離された入力ベクトル。
ニューロンの方向性ダイナミクスが重要。
Introduction:
ニューラルネットワークは多くの領域で優れた実用的パフォーマンスを示す。
初期化前提条件下で勾配降下法が一次アルゴリズムによって誘導される暗黙的バイアスや正則化が重要。
Preliminaries:
二層ReLUネットワーク内部で活動パターンが進化することが重要。
Convergence of Two-layer ReLU Networks with Small Initialization:
方向収束や最終収束時の低ランクバイアスが重要。
Numerical Experiments:
MNISTデータセット上で数値実験を行い、理論的結果と比較。
Stats
During the early phase of training, neurons in the first layer try to align with either the positive data or the negative data.
A careful analysis of the neurons’ directional dynamics allows us to provide an O( log n √µ ) upper bound on the time it takes for all neurons to achieve good alignment with the input data.