Gemma는 Gemini 모델의 연구 및 기술을 기반으로 한 경량 오픈 소스 모델입니다. 2B와 7B 크기의 두 가지 모델을 제공하며, 사전 학습된 모델과 fine-tuned 모델을 모두 공개하고 있습니다. Gemma는 유사 규모의 다른 오픈 소스 모델들에 비해 11개 중 11개 과제에서 더 나은 성능을 보여줍니다. 또한 안전성과 책임감 있는 측면에 대한 종합적인 평가를 제공하고 있습니다.
모델 아키텍처는 Transformer 디코더를 기반으로 하며, 다양한 개선 사항들이 적용되었습니다. 2B 모델은 multi-query 어텐션을, 7B 모델은 multi-head 어텐션을 사용합니다. 또한 RoPE 임베딩, GeGLU 활성화 함수, RMSNorm 등이 적용되었습니다.
모델 학습에는 TPUv5e 클러스터가 사용되었으며, 2B 모델은 512개, 7B 모델은 4096개의 TPU를 활용했습니다. 사전 학습 데이터는 주로 영어 웹 문서, 수학, 코드 등으로 구성되어 있으며, 안전성을 위해 필터링 과정을 거쳤습니다.
사전 학습 모델에 대해 supervised fine-tuning과 RLHF를 수행하여 대화, 지시 따르기, 유용성, 안전성 등의 성능을 향상시켰습니다.
Gemma 모델은 다양한 벤치마크에서 기존 오픈 소스 모델들을 능가하는 성과를 보여줍니다. 특히 수학 및 코딩 과제에서 두드러진 성능 향상을 보였습니다. 또한 안전성 및 책임감 측면에서도 종합적인 평가를 제공하고 있습니다.
Gemma 모델의 공개는 AI 기술 발전에 기여할 것으로 기대되지만, 잠재적인 위험성도 인지하고 있습니다. 이에 따라 안전한 배포를 위한 다양한 노력을 기울이고 있으며, 지속적인 연구와 협력을 통해 더욱 안전하고 책임감 있는 모델 개발을 추구할 것입니다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Gemma Team at arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08295.pdfDeeper Inquiries