本報告書では、オムニフュージョンモデルの開発について説明する。
オムニフュージョンモデルは、大規模言語モデルと視覚特徴抽出アダプターを統合したマルチモーダルアーキテクチャである。様々な設計原則を評価し、テキストと視覚データの結合を最適化する。具体的には、MLPアダプターとトランスフォーマーアダプター、CLIP ViTベースのエンコーダ(SigLIP、InternVITなど)、画像エンコーディング手法(全画像エンコーディングとタイルエンコーディング)、2つの7B言語モデル(独自モデルとオープンソースのMistral)を検討した。
8つの視覚言語ベンチマークで評価した結果、オムニフュージョンモデルは最高スコアを達成した。また、家事、観光、文化、医療、手書き数式認識など、様々な分野で詳細な回答を生成できることを示した。
オープンソースのMistral版オムニフュージョンモデルのウェイトとスクリプトを公開している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問