Core Concepts
Gemma는 Gemini 모델의 연구 및 기술을 기반으로 한 경량 오픈 소스 모델로, 언어 이해, 추론, 안전성 등에서 강력한 성능을 보여줍니다.
Abstract
Gemma는 Gemini 모델의 연구 및 기술을 기반으로 한 경량 오픈 소스 모델입니다. 2B와 7B 크기의 두 가지 모델을 제공하며, 사전 학습된 모델과 fine-tuned 모델을 모두 공개하고 있습니다. Gemma는 유사 규모의 다른 오픈 소스 모델들에 비해 11개 중 11개 과제에서 더 나은 성능을 보여줍니다. 또한 안전성과 책임감 있는 측면에 대한 종합적인 평가를 제공하고 있습니다.
모델 아키텍처는 Transformer 디코더를 기반으로 하며, 다양한 개선 사항들이 적용되었습니다. 2B 모델은 multi-query 어텐션을, 7B 모델은 multi-head 어텐션을 사용합니다. 또한 RoPE 임베딩, GeGLU 활성화 함수, RMSNorm 등이 적용되었습니다.
모델 학습에는 TPUv5e 클러스터가 사용되었으며, 2B 모델은 512개, 7B 모델은 4096개의 TPU를 활용했습니다. 사전 학습 데이터는 주로 영어 웹 문서, 수학, 코드 등으로 구성되어 있으며, 안전성을 위해 필터링 과정을 거쳤습니다.
사전 학습 모델에 대해 supervised fine-tuning과 RLHF를 수행하여 대화, 지시 따르기, 유용성, 안전성 등의 성능을 향상시켰습니다.
Gemma 모델은 다양한 벤치마크에서 기존 오픈 소스 모델들을 능가하는 성과를 보여줍니다. 특히 수학 및 코딩 과제에서 두드러진 성능 향상을 보였습니다. 또한 안전성 및 책임감 측면에서도 종합적인 평가를 제공하고 있습니다.
Gemma 모델의 공개는 AI 기술 발전에 기여할 것으로 기대되지만, 잠재적인 위험성도 인지하고 있습니다. 이에 따라 안전한 배포를 위한 다양한 노력을 기울이고 있으며, 지속적인 연구와 협력을 통해 더욱 안전하고 책임감 있는 모델 개발을 추구할 것입니다.
Stats
우리는 Gemma 사전 학습 모델의 메모리 사용을 평가했으며, 유사 규모의 PaLM 모델과 비교했을 때 유사한 수준의 메모리 사용을 보였습니다.
개인 데이터 메모리화 측면에서는 민감한 개인 정보가 메모리화되지 않았으며, 일부 개인 정보로 간주되는 데이터가 낮은 비율로 메모리화되었습니다.
Quotes
"Gemma는 언어 이해, 추론, 안전성 등에서 강력한 성능을 보여줍니다."
"Gemma 모델은 수학 및 코딩 과제에서 두드러진 성능 향상을 보였습니다."
"Gemma 모델의 공개는 AI 기술 발전에 기여할 것으로 기대되지만, 잠재적인 위험성도 인지하고 있습니다."