核心概念
最新のマルチモーダル基盤モデル、特にGemini 1.5 Proは、多数のデモンストレーションを用いたインコンテキスト学習により、多様なドメインやタスクにおいて大幅なパフォーマンス向上と費用対効果を実現できる。
要約
マルチモーダル基盤モデルにおける多数のデモンストレーションを用いたインコンテキスト学習
本稿は、最新のマルチモーダル基盤モデルを用いた、多数のデモンストレーションを用いるインコンテキスト学習(ICL)に関する研究論文である。
本研究は、最新のマルチモーダル基盤モデルが、従来の少数の例を用いたICLと比較して、多数のデモンストレーションを用いることで、どの程度のパフォーマンス向上を遂げられるかを検証することを目的とする。
GPT-4o、GPT4(V)-Turbo、Gemini 1.5 Pro、Llama3.2-Vision、InternLM-XComposer2.5の5つのマルチモーダル基盤モデルを用いて評価を行った。
自然画像、医療画像、リモートセンシング画像、分子画像など、複数のドメインの14のデータセットを用いてベンチマークを行った。
画像分類、視覚質問応答、物体位置特定など、複数のタスクでモデルのパフォーマンスを測定した。
多数のデモンストレーションを用いることによるパフォーマンス向上に加えて、クエリバッチ処理によるコストとレイテンシへの影響も調査した。