Core Concepts
深層学習におけるトレーニングプロセスは、効果的な低次元マニフォールドを探索する。
Abstract
多くの異なるアーキテクチャ、サイズ、最適化手法、正則化技術で訓練されたネットワークが同じ予測空間内の同じマニフォールド上にあることが示唆されている。
トレーニングデータとテストデータの予測空間も効果的に低次元であり、異なるアーキテクチャがトレーニング軌跡を主に区別している。
最適化や正則化手法よりもアーキテクチャがトレーニング軌跡を区別する主要因であることが示されている。
Stats
実験データ(NC〜106−108)から得られた結果は76%の「ストレス」を説明している。
CIFAR-10では約150,000種類の異なるモデルが同じマニフォールド上に存在していることが示されている。
Quotes
"Training a deep neural network involves solving a high-dimensional, large-scale and non-convex optimization problem and should be prohibitively hard—but it is quite tractable in practice."
"We show that training trajectories of multiple deep neural networks with different architectures, optimization algorithms, hyper-parameter settings, and regularization methods evolve on a remarkably low-dimensional manifold in the space of probability distributions."