核心概念
本文提出了一個新的全球範圍影片地理定位問題,並創建了一個名為 CityGuessr68k 的資料集來應對這一挑戰,同時提出了一種結合場景識別和文字標籤對齊的基準方法來提高定位精度。
本文提出了一個新的全球範圍影片地理定位問題,目標是僅憑藉影片內容預測其拍攝地點的城市、州/省、國家和大陸。由於缺乏現有的大規模全球影片地理定位資料集,本文創建了一個名為 CityGuessr68k 的新資料集,其中包含來自全球 166 個城市的 68,269 部影片。
為了解決這個問題,本文提出了一種基於 Transformer 的架構作為基準方法,該方法包含兩個主要組成部分:
自我交叉注意力模組: 該模組用於整合場景資訊,並利用軟場景標籤來增強定位預測。
文字標籤對齊策略: 該策略用於在特徵空間中提取文字標籤的知識,通過將模型特徵與預先訓練的文字編碼器生成的文字標籤嵌入對齊,從而提高模型的預測能力。
實驗結果表明,本文提出的方法在 CityGuessr68k 和 Mapillary(MSLS) 資料集上均取得了顯著的效果,證明了該方法在全球範圍影片地理定位任務中的有效性。
提出了全球範圍影片地理定位的新問題。
創建了首個全球範圍影片地理定位資料集 CityGuessr68k,包含來自 166 個城市的 68,269 部影片。
提出了一種基於 Transformer 的架構作為基準方法,該方法結合了自我交叉注意力模組和文字標籤對齊策略。
在 CityGuessr68k 和 Mapillary(MSLS) 資料集上驗證了所提出方法的有效性。