核心概念
다양한 구조, 크기, 최적화 방법, 정규화 기법, 데이터 증강 기법, 가중치 초기화를 가진 딥 네트워크들이 예측 공간에서 동일한 저차원 다양체 상에 있다.
要約
이 연구에서는 딥 네트워크의 학습 과정을 정보 기하학적 기법을 통해 분석하였다. 다양한 구조, 크기, 최적화 방법, 정규화 기법, 데이터 증강 기법, 가중치 초기화를 가진 수많은 딥 네트워크들이 예측 공간에서 동일한 저차원 다양체 상에 있음을 발견하였다.
구체적으로:
- CIFAR-10과 ImageNet 데이터셋에 대해 2,296개와 792개의 다양한 딥 네트워크 구성을 학습하고 분석하였다.
- 이들 네트워크의 학습 과정은 예측 공간에서 매우 낮은 차원의 다양체를 탐색한다. 상위 3차원이 76%의 설명력을 가지며, 상위 50차원이 98%의 설명력을 가진다.
- 서로 다른 구조의 네트워크들은 구분되는 궤적을 보이지만, 최적화 방법이나 정규화 기법 등의 요인은 궤적에 큰 영향을 미치지 않는다.
- 더 큰 네트워크는 더 작은 네트워크와 유사한 다양체를 따라 더 빠르게 학습한다.
- 매우 다른 초기값에서 시작한 네트워크들도 유사한 다양체를 따라 수렴한다.
이러한 결과는 딥러닝에서의 최적화 문제가 본질적으로 저차원적임을 시사한다.
統計
학습 과정 중 예측 확률 분포의 Bhattacharyya 거리가 0.02 이하인 모델들은 진실에 매우 가깝다.
테스트 데이터에 대한 예측 확률 분포의 Bhattacharyya 거리가 최대 0.58까지 나타난다.
引用
"Training a deep neural network involves solving a high-dimensional, large-scale and non-convex optimization problem and should be prohibitively hard—but it is quite tractable in practice."
"Our experimental data shows that the training process explores a low-dimensional manifold in the prediction space."