核心概念
본 논문에서는 넓이와 깊이가 무한대로 갈 때, 가중치 감쇠 정규화를 사용한 대규모 트랜스포머 훈련에서 경사 하강법이 전역적 최소값으로 수렴함을 보여줍니다.
摘要
대규모 트랜스포머 훈련에서의 전역적 수렴 분석
본 논문은 연구 논문으로, 대규모 트랜스포머 모델 훈련에서 경사 하강법의 수렴 특성을 엄밀하게 분석합니다.
가중치 감쇠 정규화를 사용한 대규모 트랜스포머 훈련에서 경사 하강법의 수렴 속성을 rigorously 분석합니다.
대규모 트랜스포머 모델에서 경사 기반 접근 방식이 어떻게 지속적으로 성공할 수 있는지 밝힙니다.
평균 필드 한계 구성: 모델의 너비와 깊이가 무한대로 갈 때 경사 흐름이 편미분 방정식으로 표현되는 Wasserstein 경사 흐름으로 수렴함을 보여주는 대규모 트랜스포머의 평균 필드 한계를 구성합니다.
전역적 최소값 수렴 증명: 가중치 감쇠 정규화 매개변수가 충분히 작을 때 경사 흐름이 PDE 솔루션과 일치하는 전역적 최소값에 도달함을 증명합니다.
새로운 평균 필드 기술 적용: 트랜스포머에 적합한 일련의 새로운 평균 필드 기술을 기반으로 분석을 수행합니다. 기존 연구와 달리 부분적 동질성과 국소적 Lipschitz 부활성만 가정하여 분석을 세분화합니다.