Core Concepts
OpenELM은 레이어 단위 스케일링 전략을 사용하여 트랜스포머 모델 내 각 레이어의 매개변수를 효율적으로 할당하여 정확도를 향상시킵니다.
Abstract
OpenELM은 상태 기술 트랜스포머 기반 언어 모델 제품군입니다. 핵심 혁신은 레이어 단위 스케일링 전략을 사용하여 트랜스포머 모델 내 각 레이어의 매개변수를 효율적으로 할당하는 것입니다. 이를 통해 유사 크기의 기존 언어 모델보다 향상된 정확도를 달성할 수 있습니다.
OpenELM은 공개 데이터셋을 사용하여 사전 학습되었으며, 학습 로그, 다중 체크포인트, 사전 학습 구성 등 전체 프레임워크를 공개하고 있습니다. 이를 통해 오픈 리서치 커뮤니티를 지원하고 미래 연구 노력을 촉진하고자 합니다.
OpenELM은 다양한 평가 프레임워크에서 기존 공개 언어 모델을 능가하는 성능을 보여줍니다. 예를 들어, 약 11억 개의 매개변수를 가진 OpenELM은 약 12억 개의 매개변수를 가진 OLMo보다 2.36% 높은 정확도를 달성하면서도 2배 적은 사전 학습 토큰을 사용합니다.
Stats
OpenELM은 약 1.5조 개의 토큰으로 사전 학습되었습니다.
OpenELM 1.1B 모델은 OLMo 1.2B 모델보다 2.36% 높은 정확도를 달성했습니다.
OpenELM 3.0B 모델은 67.39%의 평균 정확도를 달성했습니다.
Quotes
"OpenELM은 레이어 단위 스케일링 전략을 사용하여 트랜스포머 모델 내 각 레이어의 매개변수를 효율적으로 할당합니다."
"OpenELM은 공개 데이터셋을 사용하여 사전 학습되었으며, 전체 프레임워크를 공개하고 있습니다."
"OpenELM은 기존 공개 언어 모델을 능가하는 성능을 보여줍니다."