Jamba는 Transformer 레이어와 Mamba 레이어를 결합한 하이브리드 아키텍처를 기반으로 하는 대규모 언어 모델이다. Transformer 모델은 메모리와 계산 요구사항이 높아 긴 문맥을 처리하기 어려운 반면, Mamba 모델은 효율적으로 긴 문맥을 요약할 수 있다. Jamba는 이 두 모델의 장점을 결합하여 메모리 사용량과 계산 효율성을 개선하면서도 우수한 성능을 달성한다.
Jamba 모델은 Transformer 레이어와 Mamba 레이어를 일정 비율로 혼합하여 구성된다. 이 비율을 조절하면 메모리 사용량, 효율적인 학습, 긴 문맥 처리 능력 등을 조절할 수 있다. 또한 일부 MLP 레이어를 Mixture-of-Experts(MoE) 레이어로 대체하여 모델 용량을 늘리면서도 계산 요구사항을 관리할 수 있다.
Jamba 모델은 80GB GPU 한 대에 맞춰 설계되었으며, 256K 토큰 길이의 문맥을 처리할 수 있다. 이는 기존 모델에 비해 메모리 사용량이 크게 줄어든 것이다. 또한 Jamba는 기존 모델에 비해 3배 이상의 처리 속도를 보인다.
Jamba 모델은 다양한 벤치마크에서 기존 최신 모델들과 유사하거나 더 나은 성능을 보였다. 특히 긴 문맥 처리 능력이 뛰어나 기존 모델을 크게 앞섰다. 이는 Jamba의 하이브리드 아키텍처가 Transformer와 Mamba 모델의 장점을 효과적으로 결합했기 때문이다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania