Core Concepts
GPT-4ビジョンを使って、建物外観画像から建築年代を零距離学習で分類することができる。
Abstract
本研究では、建物の外観画像から建築年代を推定するための零距離学習分類器をGPT-4ビジョンを使って開発した。ロンドンを事例として、FI-Londonと呼ばれる新しいデータセットを作成し、15の建築年代区分を含む131枚の高解像度の建物外観画像を収集した。
GPT-4ビジョンに適切なプロンプトを与えることで、訓練なしで建築年代を分類することができた。実験の結果、全体の分類精度は39.69%と低かったが、平均絶対誤差は0.85年代と小さく、大まかな建築年代を推定できることが分かった。特に、1800-1819年、1880-1899年、1920-1939年、1960-1979年、2000-2019年の年代では高い精度を示した。一方で、1700年以前や1840-1859年の古い建物の推定は困難であった。
この研究は、GPT-4ビジョンのような大規模な多モーダルモデルが、建築年代推定のような特定のビジョンタスクにも適用可能であることを示した。今後は、他の建物属性の推定や、より大規模なデータセットの構築などに取り組む必要がある。
Stats
建物の外観画像から建築年代を推定する際の平均絶対誤差は0.85年代である。
1800-1819年、1880-1899年、1920-1939年、1960-1979年、2000-2019年の年代では高い分類精度を示した。
1700年以前や1840-1859年の古い建物の年代推定は困難であった。
Quotes
"GPT-4ビジョンのような大規模な多モーダルモデルが、建築年代推定のような特定のビジョンタスクにも適用可能である。"
"建物の外観画像から建築年代を推定する際の平均絶対誤差は0.85年代である。"