Temel Kavramlar
이 논문에서는 경사 하강법을 사용하지 않고 명시적으로 상한을 구축하여 과소 매개변수화된 얕은 신경망의 비용(손실) 최소화 문제에 접근합니다. 핵심 초점은 근사 및 정확한 최소화기의 기하학적 구조를 명확히 하는 것입니다.
Özet
이 논문은 다음과 같은 내용을 다룹니다:
입력 공간 RM, 출력 공간 RQ (Q ≤ M), 훈련 입력 샘플 크기 N > QM인 ReLU 활성화 함수와 L2 Schatten 클래스(또는 Hilbert-Schmidt) 비용 함수를 가진 단일 은닉층의 얕은 신경망을 고려합니다.
비용 함수의 최소값에 대한 상한을 O(δP)의 순서로 증명합니다. 여기서 δP는 훈련 입력의 신호 대 잡음 비율을 측정합니다.
M = Q인 특별한 경우에, 비용 함수의 정확한 퇴화 국소 최소값을 명시적으로 결정하고, Q ≤ M에 대해 얻은 상한과의 상대 오차가 O(δ2P)임을 보여줍니다.
상한 증명은 구성적으로 훈련된 네트워크를 제공합니다. 이 네트워크는 입력 공간 RM의 특정 Q차원 부공간을 계량화합니다.
주어진 맥락에서 비용 함수의 전역 최소값 특성화에 대해 논평합니다.
İstatistikler
훈련 입력 데이터의 평균 x0,j는 RM에 속합니다.
훈련 입력 데이터의 편차 ∆x0,j,i는 RM에 속합니다.
훈련 입력 데이터의 최대 편차 δ는 양의 실수입니다.
신호 대 잡음 비율 δP는 양의 실수입니다.
Alıntılar
"이 논문은 복잡한 다체 양자 시스템(예: 큰 분자)의 기저 상태 에너지를 결정하기 위한 수학물리학 방법에서 영감을 얻습니다."
"우리의 주요 목표는 (근사) 비용 최소화기의 기하학적 구조에 대한 엄격한 수학적 이해를 얻는 것입니다."