Core Concepts
大規模多モーダルモデルは、わずかな例示によって新しいタスクを迅速に習得する文脈学習の能力を示している。本研究では、この文脈学習の仕組みを包括的に調査し、テキストと画像の各モダリティがどのように影響するかを明らかにする。
Abstract
本研究は、大規模多モーダルモデルの文脈学習(M-ICL)の仕組みを包括的に調査したものである。主な知見は以下の通り:
一般的に、M-ICLはテキストに大きく依存しており、画像の影響は小さい。ただし、画像キャプショニングや分類タスクでは画像の役割が大きい。
類似性に基づいた高度なM-ICL手法(RICES)では、単純な多数決ベースの手法と同等の性能しか発揮できない。これは、RICES がより類似した回答を選択しているだけで、実際の学習は行われていないためと考えられる。
M-ICLは最新の例示に強く影響されるバイアスがあり、最も類似した例示ではなく、最新の例示の出力をコピーする傾向がある。
これらの知見は、M-ICLの限界と課題を明らかにしており、より効果的なM-ICLを実現するための示唆を与えている。
Stats
画像キャプショニングタスクでは、ランダムな画像を使用すると性能が大幅に低下する。
視覚問答タスクでは、質問文を削除または置き換えると性能が3.5~9.5ポイント低下する。
分類タスクでは、テキスト情報のみでは性能が低く、画像情報が重要である。
Quotes
"M-ICLは主にテキストに依存しており、画像の役割は小さい。"
"RICES のような高度なM-ICL手法は、単純な多数決ベースの手法と同等の性能しか発揮できない。"
"M-ICLは最新の例示に強く影響されるバイアスがある。"