본 연구는 위성 영상과 거리 영상을 통합하여 도시 지표를 예측하는 새로운 비전-언어 사전 학습 모델 UrbanVLP를 제안한다. UrbanVLP는 다중 수준의 정보를 활용하여 도시 지표 예측 성능을 향상시키고, 자동 텍스트 생성 및 보정 기술을 통해 모델의 해석 가능성을 높인다.