핵심 개념
마스크된 구조성 성장(MSG)은 모든 가능한 차원에 대한 성장 연산을 지원하여 효율적인 일정을 제공하며, 다양한 모델 구성에서 최신 속도 향상을 달성합니다.
초록
ICLR 2024 학회 논문으로 발표된 내용
대규모 언어 모델 사전 훈련 가속화가 중요한 문제
MSG는 작은 Transformer 구조에서부터 점진적으로 성장하여 사전 훈련 속도를 높이는 방법을 제안
MSG는 모든 가능한 차원에 대한 성장 연산을 지원하며, 최신 속도 향상 비율을 달성
MSG는 엄격한 기능 보존과 새로운 가중치 초기화에 독립적인 연산을 제공하여 향후 연구에 유용
통계
MSG는 다양한 유형의 언어 모델에 대해 사전 훈련 속도를 최대 2.2배 빠르게 달성
Bert와 GPT-2에서 MSG는 비교 가능하거나 더 나은 하류 성능을 유지
인용구
"MSG는 모든 가능한 차원에 대한 성장 연산을 지원하여 효율적인 일정을 제공하며, 다양한 모델 구성에서 최신 속도 향상을 달성합니다."
"MSG는 엄격한 기능 보존과 새로운 가중치 초기화에 독립적인 연산을 제공하여 향후 연구에 유용합니다."