核心概念
신경망 필드의 초기화와 아키텍처 선택이 최적화 과정에 미치는 깊은 영향을 강조하며, 활성화 함수와 초기화 방법의 균형을 통해 매개변수 효율적인 신경망 필드를 설계할 수 있다.
摘要
이 논문은 신경망 필드의 초기화와 활성화 함수 선택이 최적화 과정에 미치는 영향을 이론적으로 분석하고 있다.
- 얕은 신경망의 경우:
- 사인, 싱크, 가우시안, 웨이블릿 활성화 함수를 사용하고 LeCun, Xavier, Kaiming 초기화를 적용할 때, 데이터 크기에 따라 은닉층 너비가 선형 이상으로 증가해야 한다.
- 이는 ReLU 활성화 함수를 사용하는 경우보다 더 효율적이다.
- 깊은 신경망의 경우:
- 사인, 싱크, 가우시안, 웨이블릿 활성화 함수를 사용하고 LeCun, Xavier, Kaiming 초기화를 적용할 때, 마지막 은닉층 너비가 데이터 크기의 제곱 이상으로 증가해야 한다.
- 이 역시 ReLU 활성화 함수를 사용하는 경우보다 더 효율적이다.
- 새로운 초기화 방법 제안:
- 마지막 층의 가중치 초기화 분산을 줄이는 초기화 방법을 제안했다.
- 이 방법을 사용하면 얕은 신경망의 경우 선형 스케일링, 깊은 신경망의 경우 제곱 스케일링으로도 최적화가 가능하다.
- 다양한 신경망 필드 응용 분야에서 실험을 통해 이론적 예측을 검증했다.
統計資料
데이터 크기가 N일 때, 얕은 신경망의 은닉층 너비는 Ω(N^3/2)이 필요하다.
데이터 크기가 N일 때, 깊은 신경망의 마지막 은닉층 너비는 Ω(N^5/2)이 필요하다.
제안한 초기화 방법을 사용하면 얕은 신경망의 경우 선형 스케일링, 깊은 신경망의 경우 제곱 스케일링으로도 최적화가 가능하다.
引述
"신경망 필드의 초기화와 아키텍처 선택이 최적화 과정에 미치는 깊은 영향을 강조하며, 활성화 함수와 초기화 방법의 균형을 통해 매개변수 효율적인 신경망 필드를 설계할 수 있다."
"얕은 신경망의 경우 사인, 싱크, 가우시안, 웨이블릿 활성화 함수를 사용하고 LeCun, Xavier, Kaiming 초기화를 적용할 때, 데이터 크기에 따라 은닉층 너비가 선형 이상으로 증가해야 한다."
"깊은 신경망의 경우 사인, 싱크, 가우시안, 웨이블릿 활성화 함수를 사용하고 LeCun, Xavier, Kaiming 초기화를 적용할 때, 마지막 은닉층 너비가 데이터 크기의 제곱 이상으로 증가해야 한다."