マルチモーダル言語モデル (MLLM) の時空間推論能力は、画像間の粗対応付けを視覚的なプロンプトとして与えることで、モデルのアーキテクチャやタスク固有のファインチューニングなしに大幅に向上させることができる。