Heron-Benchは、ビジョン言語モデルの日本語理解能力を包括的に評価するための新しいベンチマークである。日本の文化的背景を反映した画像と質問から構成され、閉鎖型モデルと公開型モデルの性能を比較することで、日本語理解の現状と課題を明らかにする。
ビジョン言語モデルの推論能力を向上させるため、大規模言語モデルが生成したプログラムと視覚ツールの能力を蒸留する手法を提案する。
大規模生成型ビジョン言語モデルの合成性能力は十分に理解されていない。現在の評価指標とベンチマークには構文的バイアスが存在し、モデルの真の合成能力を適切に評価できていない。
大規模ビジョン言語モデルにおいて、入力画像の人物の人種、性別、身体的特徴が生成されるテキストの毒性や能力に関連する言葉に大きな影響を及ぼすことが明らかになった。
Mini-Geminiは、効率的な高解像度視覚トークン抽出、高品質データ活用、およびビジョン言語モデルの生成能力拡張により、従来のモデルを大幅に上回る性能を実現する。
命令対比デコーディング(ICD)は、標準命令と攪乱命令の分布の差異を利用することで、大規模ビジョン言語モデルの生成における幻覚を効果的に軽減する。
ビデオを単一の画像グリッドに変換することで、高性能なビジョン言語モデルを直接適用し、ビデオ理解タスクを効率的に解決できる。
VLMを使用してSGGの表現を向上させ、印象的なパフォーマンス向上を実現するために、新しいLM推定法と確信度重視のアンサンブル戦略が効果的であることを示す。
LVLMsにおける物体幻覚を軽減するためのLUREアルゴリズムの提案と効果的な結果を示す。
大規模なウェブスクリーンショットデータを活用した新しい事前学習パラダイムは、画像からテキストへのモデルの性能向上に効果的であることを示唆しています。