核心概念
H2OVL-Mississippiは、OCRや文書理解に特化した小型で効率的なビジョン言語モデルであり、限られた計算リソースでも堅牢なパフォーマンスを発揮します。
要約
H2OVL-Mississippi技術レポートの概要
本稿は、H2OVL-Mississippiと呼ばれる新しい小型ビジョン言語モデル(VLM)シリーズを紹介する技術レポートです。H2OVL-Mississippiは、特にOCRや文書分析などのタスクにおいて、大規模モデルに匹敵する効率性と汎用性を提供することを目的としています。
近年、視覚エンコーダーと言語モデルを組み合わせたVLMが急速に進歩し、画像とテキストを組み合わせた複雑なタスク処理能力が向上しています。しかし、最先端のモデルは巨大なアーキテクチャに依存し、膨大な計算リソースを必要とするため、プライバシー重視のエッジデバイスへの展開が困難です。
H2OVL-Mississippiは、このような制約に対処するために、多様な視覚言語タスク、特にOCRと文書分析において、大規模モデルと競合できる効率的で小型な代替手段を提供します。
H2OVL-Mississippiは、ViT-MLP-LLM構成を採用し、画像特徴を抽出するビジョンエンコーダー、テキストを生成する大規模言語モデル(LLM)、両者を繋ぐMLP層で構成されています。
画像処理の最適化
H2OVL-Mississippiは、画像のアスペクト比と解像度に基づいて画像処理を調整する動的解像度戦略を採用しています。各画像は448x448ピクセルのタイルに分割され、画像全体をカバーするために1〜6個のタイルを使用します。これにより、モデルはさまざまな画像サイズに適応しながら、トークンの使用を最適化し、重要な詳細を保持できます。
さらに、計算効率を高めるために、ビジョントランスフォーマー(ViT)の埋め込みにピクセルシャッフル操作を適用し、448x448タイルあたりのビジュアルトークン数を256に削減します。
H2OVL-Mississippi-2Bの追加機能
H2OVL-Mississippi-2Bモデルは、マルチスケール適応クロッピング(MSAC)戦略を採用しています。MSACは、従来のクロッピング技術で発生する鋸歯状のアーティファクトに対処し、さまざまなスケールで特徴を捉えることができます。