연성 함수의 경계 탐험: 증명 가능한 최적화, 확산 모델에의 응용, 그리고 그 이상
연성 함수는 대규모 언어 모델의 성공에 핵심적인 역할을 하지만, 그 효과성의 근본적인 학습 동역학은 아직 충분히 탐구되지 않았다. 본 논문은 두 층 연성 신경망의 최적화 및 일반화 특성에 대한 이론적 연구를 제공하여, 다른 활성화 함수들에 비해 연성 함수의 우수한 성능에 대한 이론적 통찰을 제공한다. 또한 이를 확산 모델의 점수 추정 함수 학습에 적용하여 실용적인 사례 연구를 수행한다.