Centrala begrepp
本稿では、高解像度画像や高フレームレート動画の長文コンテキストを効率的に処理できるハイブリッドTransformer-MAMBAモデルを用いた、マルチモーダル命令チューニング手法を提案する。
Sammanfattning
ハイブリッド状態空間モデルを用いたマルチモーダル命令チューニング:高解像度画像と高フレームレート動画の効率的な処理
研究概要
本論文は、高解像度画像や高フレームレート動画を効率的に処理できる新しいマルチモーダル大規模言語モデル(MLLM)であるMMJAMBAを提案する。MMJAMBAは、TransformerとMAMBAを組み合わせたハイブリッドアーキテクチャを採用することで、従来のモデルよりも高速かつ高精度な処理を実現する。
背景
近年、画像認識や自然言語処理の分野において、大規模言語モデル(LLM)が注目を集めている。LLMは、大量のテキストデータから学習することで、人間のように自然な文章を生成したり、画像の内容を理解したりすることができる。
しかし、従来のLLMは、高解像度画像や高フレームレート動画のような長文コンテキストの処理に課題を抱えていた。これは、LLMの主要な構成要素であるself-attention機構の計算量が、シーケンス長に対して2乗で増加するためである。
MMJAMBAの特徴
MMJAMBAは、以下の2つの特徴を持つ。
- ハイブリッドTransformer-MAMBAモデルの採用: TransformerとMAMBAを組み合わせることで、長文コンテキストを効率的に処理できる。MAMBAは、Transformerよりも計算量が少なく、長距離依存関係を学習することができる。
- Train-on-short-infer-on-long戦略: 学習時には低解像度画像や低フレームレート動画を使用し、推論時には高解像度画像や高フレームレート動画を使用する。これにより、学習の効率性を維持しながら、高精度な推論を実現する。
実験結果
MMJAMBAを、画像理解と動画理解のベンチマークデータセットを用いて評価した結果、従来のモデルよりも優れた性能を示した。特に、高解像度画像や高フレームレート動画の処理において、その効果が顕著であった。
結論
MMJAMBAは、高解像度画像や高フレームレート動画を効率的に処理できる新しいMLLMである。本手法は、画像認識や自然言語処理など、様々な分野への応用が期待される。
Statistik
448×448ピクセルの画像を使用すると、336×336ピクセルの画像を使用した場合と比較して、LLaVAの計算量は約1.4倍になる。
4368*4368の解像度で、MMJAMBAは、既存のオープンソースモデル(例:LLaVA-Next-13B)と比較して約4倍高速に動作する。
学習時には最大672*672の解像度を使用し、これは2304トークンに相当する。
推論時には、672672、13441344、2688*2688の異なる最大解像度を使用し、これはそれぞれ2880、9792、37440のビジュアルトークンに相当する。
学習時には8フレームを使用する。
推論時には、8、16、32、64の異なるフレーム数を使用する。
Citat
"To circumvent this issue while keeping the remarkable effectiveness of MLLMs, we propose a novel approach using a hybrid transformer-MAMBA model to efficiently handle long contexts in multimodal applications."
"Our multimodal model can effectively process long context input exceeding 100k tokens, outperforming existing models across various benchmarks."
"Remarkably, our model enhances inference efficiency for high-resolution images and high-frame-rate videos by about 4 times compared to current models, with efficiency gains increasing as image resolution or video frames rise."
"Furthermore, our model is the first to be trained on low-resolution images or low-frame-rate videos while being capable of inference on high-resolution images and high-frame-rate videos, offering flexibility for inference in diverse scenarios."