核心概念
MambaByte는 원시 바이트에서 직접 학습하는 토큰 없는 언어 모델로, 기존 하위 단어 토크나이저의 편향을 제거하고 바이트 시퀀스 모델링의 효율성을 높인다.
摘要
이 논문은 토큰 없는 언어 모델인 MambaByte를 소개한다. MambaByte는 최근 개발된 Mamba 상태 공간 모델(SSM)을 바이트 시퀀스에 적용한 것이다.
모델링 측면에서 MambaByte는 최신 하위 단어 Transformer와 경쟁력이 있으며 때로는 성능이 더 뛰어나다. 또한 토큰 없는 언어 모델의 장점인 잡음에 대한 강건성도 유지한다.
효율성 측면에서는 투기적 디코딩과 하위 단어 초안 작성 및 바이트 수준 검증을 통해 표준 MambaByte 구현보다 2.6배 빠른 추론 속도를 달성했다. 이를 통해 하위 단어 Mamba와 유사한 디코딩 효율을 보여준다.
이러한 결과는 SSM이 토큰 없는 언어 모델링을 가능하게 하는 실용적인 대안이 될 수 있음을 입증한다.
統計資料
바이트 수준 Transformer 모델보다 MambaByte가 더 적은 계산 예산으로 Transformer 수준의 성능을 달성한다.
MambaByte는 훈련 데이터 양이 MegaByte의 0.63배에 불과하지만 더 나은 성능을 보인다.
MambaByte는 훈련 길이의 4배 이상 긴 시퀀스에서도 성능 저하 없이 잘 작동한다.
引述
"Mamba는 입력 의존적 문맥 선택 메커니즘을 도입하여 기존 선형 시간 불변 SSM의 한계를 극복했다."
"MambaByte는 Transformer와 달리 고정 크기의 메모리 상태를 유지하므로 바이트 수준 모델링에 적합하다."
"투기적 디코딩을 통해 MambaByte는 하위 단어 Mamba와 유사한 디코딩 효율을 달성할 수 있다."