Sintesi
ニューラルネットワーク(NN)の一般化能力について、GDの暗黙的なバイアスに基づく従来の説明は不完全である。この論文では、未訓練のランダムウェイトネットワークを調査し、単純なMLPでも強い帰納的バイアスが示されることが明らかになった。NNには「単純性バイアス」が内在的に存在しないことが判明し、ReLUsや残差接続、層正規化などのコンポーネントに依存することが示された。これらの特性は深層学習の成功に寄与しており、パラメータ化や重み空間構造から利益を得ていることが示唆されている。
Statistiche
Chiang et al. [9] showed that zeroth-order optimization can yield models with good generalization as frequently as GD.
Goldblum et al. [29] showed that language models with random weights already display a preference for low-complexity sequences.
NNs are biased to implement functions of a particular level of complexity determined by the architecture.
Citazioni
"We provide a fresh explanation for the success of deep learning independent from gradient-based training."
"The Neural Redshift (NRS) points at promising avenues for controlling the solutions implemented by trained models."
"The simplicity bias is not universal but depends on common components like ReLUs, residual connections, layer normalizations."