이 연구는 지상 수준 이미지와 항공 이미지 간의 대조 학습을 통해 자연 세계 이미지에 대한 표현 학습을 개선하는 새로운 사전 학습 접근법인 ContRastive Image-remote Sensing Pre-training (CRISP)를 제안한다. 또한 이를 테스트하기 위해 캘리포니아 주 전역에 걸쳐 6,000개 이상의 식물 분류군에 대한 300만 개 이상의 지상 수준-항공 이미지 쌍으로 구성된 Nature Multi-View (NMV) 데이터셋을 소개한다.
CRISP 사전 학습은 기존의 단일 모달 접근법보다 적은 레이블 데이터에서도 종 인식, 종 분포 모델링, 작물 유형 매핑, 수목 속 식별 등의 다운스트림 태스크에서 우수한 성능을 보인다. 특히 희귀 클래스에 대한 성능 향상이 두드러지며, 이는 생물다양성이 풍부한 지역의 데이터 가용성이 제한적인 현실을 고려할 때 중요한 의미를 갖는다.
또한 CRISP 사전 학습 모델의 내부 표현을 시각화하면 생태학적 유사성과 계통학적 유사성을 포착하고 있음을 확인할 수 있다. 이는 CRISP가 자연 세계 이미지에 대한 풍부한 표현을 학습할 수 있음을 시사한다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies