신경망 최적화에서 대칭 깨기는 더 나은 최적화와 일반화를 가능하게 하는 핵심 원리이다.
경사 샘플링 기법을 활용하여 신경망 가지치기 과정에서 정확도 유지
새로운 이중 결합 탐색 공간과 무결성 검사를 통해 딥러닝 최적화기를 자동으로 찾는 방법을 제안한다. 이를 통해 가중치 업데이트 방정식뿐만 아니라 내부 감쇠 함수와 학습률 일정을 동시에 최적화할 수 있다.
신경망의 순열 대칭성은 학습된 신경망 사이의 선형 연결성을 결정하며, 이는 신경망 최적화 과정에서 중요한 역할을 한다.
본 논문은 신경망 SDEs와 관련된 최적화 문제의 표본 크기가 증가함에 따른 수렴 행동을 분석한다. 이를 위해 N개의 입자로 구성된 중앙 집중식 제어 입자 시스템을 고려하며, 이에 대한 Hamilton-Jacobi-Bellman 방정식의 정규성 결과를 도출한다. 이를 바탕으로 목적 함수의 최소값과 최적 매개변수의 수렴 속도를 확인한다.
본 논문에서는 얕은 ReLU 신경망을 이용한 최소 제곱 문제를 해결하기 위한 구조 유도 가우스-뉴턴(SgGN) 방법을 제안한다. 이 방법은 최소 제곱 구조와 신경망 구조를 모두 효과적으로 활용한다. 은닉층과 출력층의 가중치와 편향을 각각 비선형 및 선형 매개변수로 분류하고, 비선형 매개변수는 감쇠 가우스-뉴턴 방법으로, 선형 매개변수는 선형 솔버로 업데이트한다. 또한 가우스-뉴턴 단계에서 얕은 ReLU 신경망에 대한 특수한 형태의 가우스-뉴턴 행렬을 도출하여 효율적인 반복을 수행한다. 이 행렬들은 합리적인 가정 하에서 대칭이고 양의 정부호이므로 Levenberg-Marquardt 방법과 같은 추가 기법 없이도 역행렬을 구할 수 있다.
FPGA의 동적 및 부분 재구성을 활용하여 연속시간 순환신경망의 신경진화 과정을 가속화하고 효율성을 높일 수 있다.
신경망의 Fisher 정보 행렬은 매개변수 공간의 국소 기하학을 특성화하며, 신경망을 이해하고 최적화하는 데 유용한 도구를 제공한다. 계산 비용이 높기 때문에 실무자들은 무작위 추정기를 사용하고 대각선 항목만 평가한다. 이 논문에서는 이러한 두 가지 추정기의 정확성과 샘플 복잡성이 관련 분산에 따라 달라짐을 보인다. 회귀 및 분류 네트워크에서 분산의 상한을 도출하고, 두 추정기의 트레이드오프를 분석한다. 매개변수 그룹에 따른 비선형성이 분산에 영향을 미치므로 Fisher 정보 행렬을 추정할 때 무시해서는 안 된다는 것을 발견했다.
신경망 필드의 초기화와 아키텍처 선택이 최적화 과정에 미치는 깊은 영향을 강조하며, 활성화 함수와 초기화 방법의 균형을 통해 매개변수 효율적인 신경망 필드를 설계할 수 있다.
다중 에이전트 강화 학습 기반의 GANNO 프레임워크를 통해 신경망 최적화를 위한 동적이고 반응적인 하이퍼파라미터 스케줄링을 학습할 수 있다.