Core Concepts
저정밀도 부동소수점 표현을 활용하여 대규모 언어 모델 학습의 계산 비용과 메모리 사용을 줄이면서도 모델 성능을 유지할 수 있는 COLLAGE 알고리즘을 제안한다.
Abstract
이 논문은 대규모 언어 모델 학습의 계산 비용과 메모리 사용 문제를 해결하기 위한 COLLAGE 알고리즘을 제안한다.
COLLAGE는 다음과 같은 핵심 내용을 담고 있다:
모델 가중치와 옵티마이저 상태를 저정밀도 부동소수점(예: bfloat16)으로 표현하되, 다중 성분 부동소수점(MCF) 구조를 활용하여 계산 정확도를 높인다. 이를 통해 고정밀도 마스터 가중치를 사용하지 않고도 안정적인 학습이 가능하다.
학습 과정에서 발생하는 정밀도 손실을 측정하기 위한 새로운 지표인 "effective descent quality"를 제안한다. 이 지표를 통해 다양한 정밀도 전략의 성능을 비교 및 분석할 수 있다.
BERT, RoBERTa, GPT 등 다양한 대규모 언어 모델에 COLLAGE를 적용한 실험 결과, 기존 최첨단 혼합정밀도 전략 대비 최대 3.7배 빠른 학습 속도와 최대 23% 적은 메모리 사용량을 달성하면서도 유사한 또는 더 나은 성능을 보였다.
이를 통해 COLLAGE는 대규모 언어 모델 학습의 효율성과 확장성을 크게 향상시킬 수 있음을 보여준다.
Stats
대규모 GPT 모델 학습 시 COLLAGE 기반 전략이 기존 최첨단 혼합정밀도 전략 대비 최대 3.7배 빠른 학습 속도를 보였다.
COLLAGE 기반 전략은 GPT 모델 학습 시 최대 23% 적은 메모리 사용량을 보였다.
Quotes
"저정밀도 부동소수점 연산이 적절히 보정되면 좋은 성능을 낼 수 있다."
"다중 성분 부동소수점 표현을 활용하면 저정밀도에서도 정확한 연산을 수행할 수 있다."