Concetti Chiave
언어 모델 미세 조정 시 메모리 요구사항이 높아지는 문제를 해결하기 위해 제로 차수 최적화 방법에 분산 감소 기법을 결합한 새로운 알고리즘 MeZO-SVRG를 제안한다. MeZO-SVRG는 전체 배치와 미니 배치 정보를 활용하여 안정적이고 빠른 수렴 성능을 보인다.
Sintesi
이 논문은 언어 모델 미세 조정 시 메모리 요구사항이 높아지는 문제를 해결하기 위해 제로 차수 최적화 방법에 분산 감소 기법을 결합한 새로운 알고리즘 MeZO-SVRG를 제안한다.
- 제로 차수 최적화 방법인 MeZO는 메모리 효율적이지만 작은 배치 크기에서 불안정하고 비제한 설정에서 첫 번째 차수 방법과 성능 격차가 크다는 한계가 있다.
- MeZO-SVRG는 전체 배치와 미니 배치 정보를 활용하여 안정성과 수렴 속도를 개선한다. 메모리 효율성을 위해 in-place 연산을 사용하고 데이터 병렬 처리를 지원하는 gradient 추정기를 사용한다.
- 마스크드 및 자기회귀 언어 모델(최대 7B 매개변수)을 대상으로 다양한 벤치마크 과제에서 평가한 결과, MeZO-SVRG가 MeZO 대비 최대 20% 향상된 테스트 정확도를 달성했다.
- MeZO-SVRG는 계산 시간 측면에서도 우수하여, MeZO의 최고 테스트 정확도를 절반의 GPU-시간으로 달성할 수 있었다.
- 또한 MeZO-SVRG는 첫 번째 차수 방법 대비 최소 2배 적은 메모리를 사용하며, 배치 크기와 문맥 길이가 증가할수록 메모리 절감 효과가 더 커진다.
Statistiche
언어 모델 미세 조정 시 MeZO-SVRG는 MeZO 대비 최대 20% 향상된 테스트 정확도를 달성했다.
MeZO-SVRG는 MeZO의 최고 테스트 정확도를 절반의 GPU-시간으로 달성할 수 있었다.
MeZO-SVRG는 첫 번째 차수 방법 대비 최소 2배 적은 메모리를 사용하며, 배치 크기와 문맥 길이가 증가할수록 메모리 절감 효과가 더 커진다.
Citazioni
"MeZO-SVRG achieves consistent performance improvements with up to 20% increase in test accuracies over MeZO across all models and tasks."
"MeZO-SVRG stands out by consistently surpassing MeZO's test accuracy in only half as many GPU-hours."
"MeZO-SVRG significantly reduces the required memory footprint compared to first-order methods, i.e. by at least 2× for considered autoregressive models."