핵심 개념
본 논문에서는 얕은 ReLU 신경망을 이용한 최소 제곱 문제를 해결하기 위한 구조 유도 가우스-뉴턴(SgGN) 방법을 제안한다. 이 방법은 최소 제곱 구조와 신경망 구조를 모두 효과적으로 활용한다. 은닉층과 출력층의 가중치와 편향을 각각 비선형 및 선형 매개변수로 분류하고, 비선형 매개변수는 감쇠 가우스-뉴턴 방법으로, 선형 매개변수는 선형 솔버로 업데이트한다. 또한 가우스-뉴턴 단계에서 얕은 ReLU 신경망에 대한 특수한 형태의 가우스-뉴턴 행렬을 도출하여 효율적인 반복을 수행한다. 이 행렬들은 합리적인 가정 하에서 대칭이고 양의 정부호이므로 Levenberg-Marquardt 방법과 같은 추가 기법 없이도 역행렬을 구할 수 있다.
초록
본 논문에서는 얕은 ReLU 신경망을 이용한 최소 제곱 문제를 해결하기 위한 구조 유도 가우스-뉴턴(SgGN) 방법을 제안한다.
- 신경망 구조와 최소 제곱 구조를 모두 활용하는 방법
- 은닉층과 출력층의 가중치와 편향을 각각 비선형 및 선형 매개변수로 분류
- 비선형 매개변수는 감쇠 가우스-뉴턴 방법으로, 선형 매개변수는 선형 솔버로 업데이트
- 효율적인 가우스-뉴턴 반복을 위한 특수한 형태의 가우스-뉴턴 행렬 도출
- 얕은 ReLU 신경망에 대한 가우스-뉴턴 행렬의 대칭성과 양의 정부호성 증명
- Levenberg-Marquardt 방법과 같은 추가 기법 없이도 역행렬 계산 가능
- 다양한 함수 근사 문제에 대한 수치 실험 결과
- 불연속성 또는 급격한 천이층이 있는 문제에서 기존 방법보다 우수한 수렴성과 정확성 확인
- 데이터 피팅 문제에도 자연스럽게 확장 가능
통계
얕은 ReLU 신경망의 선형 매개변수 c와 비선형 매개변수 r에 대한 최소 제곱 문제의 정규 방정식은 다음과 같다:
A(r) c = f(r)
(D(c) ⊗ I_d+1) G(c, α, r) = 0
여기서 A(r)은 대칭이고 양의 definite한 질량 행렬이며, H(r)은 대칭이고 양의 definite한 층 가우스-뉴턴 행렬이다.
인용구
"본 논문에서는 얕은 ReLU 신경망을 이용한 최소 제곱 문제를 해결하기 위한 구조 유도 가우스-뉴턴(SgGN) 방법을 제안한다."
"이 방법은 최소 제곱 구조와 신경망 구조를 모두 효과적으로 활용한다."
"가우스-뉴턴 단계에서 얕은 ReLU 신경망에 대한 특수한 형태의 가우스-뉴턴 행렬을 도출하여 효율적인 반복을 수행한다."