核心概念
MIOは、テキスト、画像、音声、動画の4つのモダリティにわたる離散的なトークンを使って、エンドツーエンドかつ自己回帰的に理解と生成を行うことができる新しい基盤モデルである。
摘要
本論文では、MIOと呼ばれる新しいマルチモーダル基盤モデルを紹介する。MIOは、テキスト、画像、音声、動画の4つのモダリティにわたる離散的なトークンを使って、エンドツーエンドかつ自己回帰的に理解と生成を行うことができる。
MIOの開発には以下の4つの段階がある:
- アラインメントプリトレーニング: 非テキストモダリティのデータ表現をテキストモダリティに合わせて調整する。
- 相互関連プリトレーニング: 画像-テキスト、動画-テキストの相互関連パターンを学習する。
- 音声強化プリトレーニング: 音声モダリティの能力を強化する。
- 包括的な教師あり微調整: 16種類のタスクと34のデータセットを使って、理解と生成の両方の能力を向上させる。
実験の結果、MIOは画像理解、音声理解・生成、動画理解の各タスクで競争力のある性能を示した。さらに、MIOは相互関連するマルチモーダルシーケンスの生成や、視覚的思考連鎖の推論など、従来のモデルにはない高度な機能も備えている。
統計資料
画像キャプショニングのCIDEr スコアは120.4
VQAv2の正答率は65.5%
音声認識のWER(単語誤り率)は4.2%
音声合成のWER(単語誤り率)は4.2%
引述
"MIOは、テキスト、画像、音声、動画の4つのモダリティにわたる離散的なトークンを使って、エンドツーエンドかつ自己回帰的に理解と生成を行うことができる新しい基盤モデルである。"
"MIOは、画像理解、音声理解・生成、動画理解の各タスクで競争力のある性能を示した。さらに、MIOは相互関連するマルチモーダルシーケンスの生成や、視覚的思考連鎖の推論など、従来のモデルにはない高度な機能も備えている。"