Core Concepts
ジャンバは、トランスフォーマーとマンバの特徴を組み合わせた新しいハイブリッド型アーキテクチャを持つ大規模な言語モデルである。メモリ使用量と計算効率を改善しつつ、高性能を実現している。
Abstract
ジャンバは、トランスフォーマーとマンバ(最近開発された状態空間モデル)を組み合わせた新しいハイブリッド型アーキテクチャを持つ大規模な言語モデルである。
トランスフォーマーは高性能だが、メモリ使用量が大きく、長文脈への対応が難しい。一方、マンバは効率的に長文脈を処理できるが、性能が劣る。
ジャンバはこれらの長所を組み合わせ、メモリ使用量と計算効率を改善しつつ、高性能を実現している。
ジャンバのアーキテクチャは柔軟で、メモリ使用量、計算効率、性能のバランスを調整できる。
具体的な実装では、1:7の割合でトランスフォーマーとマンバを組み合わせ、さらにMoE(Mixture of Experts)を一部のレイヤーに適用している。
この設計により、単一のGPUで256Kトークンの長文脈を処理できる。また、トランスフォーマーのみのモデルと比べて、3倍の処理速度を実現している。
ジャンバは、標準的な言語モデルベンチマークでも高い性能を示し、長文脈タスクでも優れた結果を得ている。
Stats
単一のGPUで256Kトークンの長文脈を処理できる
トランスフォーマーのみのモデルと比べて、3倍の処理速度を実現