Core Concepts
OpenStreetView-5Mは、世界中の225の国と地域にわたる5.1百万枚の地理位置付けされた高品質な街頭景観画像から成る大規模オープンデータセットである。このデータセットを用いることで、深層学習を用いた地理位置推定手法の性能を包括的に評価することができる。
Abstract
OpenStreetView-5Mは、世界規模の地理位置推定タスクを評価するための新しい基準となるデータセットである。従来の地理位置推定データセットには以下のような課題があった:
大規模でオープンアクセスなデータセットには、位置特定が困難な画像が多数含まれている
街頭景観画像のデータセットは所有権が制限されており、入手が困難
OpenStreetView-5Mは、これらの課題を解決するために構築された。主な特徴は以下の通り:
5.1百万枚の高品質な地理位置付けされた街頭景観画像を含む
225の国と地域をカバーしており、地理的に偏りのない分布となっている
学習用と評価用の画像が1km以上離れるよう厳密に分離されている
国、地域、地区、都市といった多様な地理的メタデータが付与されている
著者らは、OpenStreetView-5Mを用いて、様々な画像エンコーダ、空間表現、学習手法の性能を包括的に評価した。その結果、大規模な画像エンコーダ、階層的な予測手法、地理的な対比学習の組み合わせが最も優れた性能を示すことが分かった。この組み合わせモデルは、人間の評価を大きく上回る地理位置推定精度を達成した。
Stats
地理位置推定の平均誤差は1814km
国レベルの分類精度は68.0%
地域レベルの分類精度は39.4%
地区レベルの分類精度は10.3%
都市レベルの分類精度は5.9%
Quotes
"OpenStreetView-5Mは、世界規模の地理位置推定タスクを評価するための新しい基準となるデータセットである。"
"大規模な画像エンコーダ、階層的な予測手法、地理的な対比学習の組み合わせが最も優れた性能を示した。"