画像ジオロケーション問題を、テキスト生成タスクとして再定義し、CLIP表現を用いた画像検索と、GPT-4VやLLaVAなどの先進的なマルチモーダリティ言語モデルを組み合わせることで、従来手法を大幅に上回るパフォーマンスを実現する。