이 논문은 무한히 깊고 넓은 ResNet 모델의 학습 과정을 분석한다. ResNet은 매우 깊은 신경망 구조를 가지고 있어 학습이 어려운 문제이지만, 실제 응용에서는 간단한 최적화 알고리즘으로도 성공적으로 학습된다. 이를 이해하기 위해 저자들은 확률 측도로 모수화된 "평균장" ResNet 모델을 제안하고, 이 모델의 학습을 조건부 최적 수송 거리에 대한 gradient flow로 다룬다.
먼저 저자들은 이 모델의 well-posedness를 보이고, 국소 Polyak-Łojasiewicz 분석을 통해 적절한 초기화에서 gradient flow가 전역 최소값으로 수렴함을 보였다. 이는 무한히 깊고 임의로 넓은 ResNet에 대한 최초의 수렴 결과이다.
또한 저자들은 조건부 최적 수송 거리에 대한 이론적 성질들을 추가로 연구하였는데, 이는 향후 관련 연구에 도움이 될 것으로 기대된다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Raph... kl. arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12887.pdfDybere Forespørgsler