Centrala begrepp
画像ジオロケーション問題を、テキスト生成タスクとして再定義し、CLIP表現を用いた画像検索と、GPT-4VやLLaVAなどの先進的なマルチモーダリティ言語モデルを組み合わせることで、従来手法を大幅に上回るパフォーマンスを実現する。
Sammanfattning
本研究では、画像ジオロケーション問題に対して、新しい生成型アプローチであるImg2Locを提案している。
まず、CLIP モデルを使って画像をベクトル表現に変換し、FAISS を用いて効率的な最近傍検索を行う。次に、検索結果の位置情報を入力プロンプトに組み込み、GPT-4VやLLaVAなどの先進的なマルチモーダリティ言語モデルに入力することで、画像の正確な地理座標を生成する。
さらに、最も類似度の低い画像の位置情報も負のサンプルとして活用することで、より正確な位置推定を実現している。
この手法は、従来の分類ベースやリトリーバルベースのアプローチと比べて、大幅な性能向上を示しており、特に基準データセットであるIm2GPS3kとYFCC4kで顕著な結果を得ている。
本研究の主な貢献は以下の通り:
- マルチモーダリティ基盤モデルを画像ジオロケーション問題に初めて適用し、顕著な成果を上げた
- モデル学習を必要とせず、検索と生成の組み合わせで高精度な予測を実現した
- 類似度の低い画像の位置情報を活用することで、より正確な位置推定を実現した
Statistik
画像ジオロケーションの精度は、1km以内で17.10%、25km以内で45.14%、200km以内で57.87%、750km以内で72.91%、2500km以内で84.68%に達した。
これは、従来最高精度だったGeoCLIPと比べて、1km以内で+2.99%、25km以内で+10.67%、200km以内で+7.22%、750km以内で+3.24%、2500km以内で+0.86%の改善を示している。
Citat
"画像ジオロケーション問題を、テキスト生成タスクとして再定義し、CLIP表現を用いた画像検索と、GPT-4VやLLaVAなどの先進的なマルチモーダリティ言語モデルを組み合わせることで、従来手法を大幅に上回るパフォーマンスを実現する。"
"本研究の主な貢献は、マルチモーダリティ基盤モデルを画像ジオロケーション問題に初めて適用し、顕著な成果を上げたことである。"