toplogo
سجل دخولك

언어 모델링 과제에서 AdamW의 내재적 편향


المفاهيم الأساسية
AdamW는 매개변수의 ℓ∞ 노름이 제한된 최적화 문제의 KKT 점으로 수렴한다.
الملخص

이 연구는 AdamW가 Adam과 ℓ2 정규화 사이의 이점을 이해하기 위한 첫 단계이다. 주요 통찰은 다음과 같다:

  1. Adam은 ℓ∞ 노름에 대한 정규화된 가장 가파른 하강법의 부드러운 버전이다.
  2. 모든 노름에 대해, 가중치 감쇠가 적용된 정규화된 가장 가파른 하강법은 해당 노름 공 내의 Frank-Wolfe 알고리즘과 본질적으로 동일하다.
    이 연구의 핵심 기술적 기여는 Adam 업데이트의 평균 업데이트 크기에 대한 엄격한 상한계를 제공하는 것이다. 이를 통해 AdamW의 하이퍼파라미터 η, λ, β1, β2와 매개변수의 ℓ∞ 노름 사이의 관계를 예측할 수 있다.
edit_icon

تخصيص الملخص

edit_icon

إعادة الكتابة بالذكاء الاصطناعي

edit_icon

إنشاء الاستشهادات

translate_icon

ترجمة المصدر

visual_icon

إنشاء خريطة ذهنية

visit_icon

زيارة المصدر

الإحصائيات
AdamW의 매개변수 ℓ∞ 노름은 다음과 같은 경우에 1/λ 이하로 수렴한다: β1 ≈ β2 λη ≪ 1 - β2 < 1 - β1
اقتباسات
없음

الرؤى الأساسية المستخلصة من

by Shuo Xie,Zhi... في arxiv.org 04-09-2024

https://arxiv.org/pdf/2404.04454.pdf
Implicit Bias of AdamW

استفسارات أعمق

0
star