学習クロスビュー視覚ジオロケーションの地面真実なし

Q: 新しい都市シナリオで事前トレーニング済みモデルのパフォーマンス向上方法は？

提案された手法では、新しい都市シナリオで事前にトレーニングされたモデルの性能を向上させるために、自己教師付き学習フレームワークを使用しています。具体的には、ラベルのないデータセットを活用してアダプターをトレーニングし、特徴表現の分布を新しいシナリオに適応させます。このアダプテーションは、異なるビュー間での特徴表現統一化を可能とすることで、凍結したタスク固有事前トレーニングモデルの性能向上が実現されます。

核心概念

地面真実を必要としないCVGLのための自己監督学習フレームワークを提案する。

要約

CVGLは、クエリ画像の地理的位置を決定することを目指す。
現在の最先端技術は、ラベル付きペア画像でモデルをトレーニングすることに依存している。
提案された方法は、ラベルなしデータだけを使用してFMの適応性を向上させる。
EM-Pseudo LabelingモジュールとAICモジュールが特徴量の一貫性を確保するために導入されている。
Introduction

CVGLは、異なる視点から画像検索を行うタスクである。
ドローンから衛星へのジオロケーションタスクに焦点が当てられている。
Methodology

問題定義と記号：クエリ画像セットと参照画像セットから特徴表現を取得する埋め込みモデルが使用される。
パイプライン概要：訓練中、全ての初期特徴が抽出され、ランダムにサンプリングされたクエリ初期特徴が適応器に入力される。
EM-Pseudo Labeling Module：EMアルゴリズムを使用して適応器パラメータと隠れ変数分布を最適化する。
Adaptation Information Consistency Module：アダプタパラメータと隠れ変数分布を最適化するEMアルゴリズムが含まれている。
Results

University-1652で提案手法は競合手法よりも優れた性能を示した。
University-160kでも提案手法は改善効果が見られた。

統計

訓練中、全ての初期特徴が抽出されます。ランダムにサンプリングされた700個のサンプルからクエリ初期特徴が抽出されます。

引用

"我々は、ラベルなしデータだけでFMの適応性を向上させる方法について説明します。"
"EM-Pseudo LabelingおよびAICモジュールは特徴量一貫性を確保します。"

抽出されたキーインサイト

Learning Cross-view Visual Geo-localization without Ground Truth

by Haoyuan Li,C... 場所 arxiv.org 03-20-2024

https://arxiv.org/pdf/2403.12702.pdf

Learning Cross-view Visual Geo-localization without Ground Truth

深掘り質問

新しい都市シナリオで事前トレーニング済みモデルのパフォーマンス向上方法は？

提案された手法では、新しい都市シナリオで事前にトレーニングされたモデルの性能を向上させるために、自己教師付き学習フレームワークを使用しています。具体的には、ラベルのないデータセットを活用してアダプターをトレーニングし、特徴表現の分布を新しいシナリオに適応させます。このアダプテーションは、異なるビュー間での特徴表現統一化を可能とすることで、凍結したタスク固有事前トレーニングモデルの性能向上が実現されます。

学習クロスビュー視覚ジオロケーションの地面真実なし

Learning Cross-view Visual Geo-localization without Ground Truth

新しい都市シナリオで事前トレーニング済みモデルのパフォーマンス向上方法は？

このページを視覚化

検出不可能なAIで生成

別の言語に翻訳

学術検索

数秒でPDFサマリーを取得