Основные понятия
대규모 딥러닝 모델 학습에 필요한 막대한 계산 비용을 줄이기 위해 다단계 프레임워크를 제안한다. 이 프레임워크는 모델 크기를 점진적으로 줄이고 확장하는 과정을 통해 작은 모델의 빠른 수렴 속도와 큰 모델의 높은 표현력을 활용한다.
Аннотация
이 논문은 대규모 트랜스포머 모델 학습을 가속화하기 위한 다단계 프레임워크를 제안한다. 이 프레임워크는 다음 3가지 핵심 연산자를 기반으로 구축된다:
병합(Coalescing): 모델 크기를 점진적으로 줄이는 연산자. 모델의 너비와 깊이를 절반씩 줄인다.
역병합(De-coalescing): 작은 모델의 매개변수를 원래 모델 크기로 복원하는 연산자.
보간(Interpolation): 역병합된 매개변수와 원래 모델 매개변수를 적절히 혼합하여 대칭성 문제를 해결하고 수렴 성능을 높이는 연산자.
이 3가지 연산자를 활용하여 V-cycle 학습 프로세스를 구축한다. 먼저 모델을 점진적으로 축소하여 작은 모델을 빠르게 학습한다. 그 후 작은 모델의 매개변수를 역병합하고 보간하여 원래 모델로 복원한다. 이를 통해 작은 모델의 빠른 수렴 속도와 큰 모델의 높은 표현력을 활용할 수 있다.
실험 결과, 제안한 다단계 프레임워크를 통해 BERT-Base와 GPT-Base 모델 학습 시 약 20%의 계산 비용을 절감할 수 있었다. BERT-Large 모델의 경우 2단계 프레임워크로 37.4%, 3단계 프레임워크로 51.6%의 계산 비용을 절감할 수 있었다. 또한 DeiT-B 모델 학습 시 27.1%의 계산 비용을 절감할 수 있었다.
Статистика
대규모 BERT 모델 학습 시 약 2배의 계산 비용이 소요된다.
BERT-Base 모델 학습 시 제안 방법으로 약 19% 계산 비용을 절감할 수 있다.
BERT-Large 모델 학습 시 제안 방법으로 2단계에서 37.4%, 3단계에서 51.6% 계산 비용을 절감할 수 있다.
DeiT-B 모델 학습 시 제안 방법으로 27.1% 계산 비용을 절감할 수 있다.
Цитаты
"The fast growing capabilities of large-scale deep learning models, such as Bert, GPT and ViT, are revolutionizing the landscape of NLP, CV and many other domains."
"Training such models, however, poses an unprecedented demand for computing power, which incurs exponentially increasing energy cost and carbon dioxide emissions."
"It is thus critical to develop efficient training solutions to reduce the training costs."