大規模多モーダルモデルは、わずかな例示によって新しいタスクを迅速に習得する文脈学習の能力を示している。本研究では、この文脈学習の仕組みを包括的に調査し、テキストと画像の各モダリティがどのように影響するかを明らかにする。