本文提出了一種新的自監督預訓練方法 ContRastive Image-remote Sensing Pre-training (CRISP),利用地面影像和航空影像的對比學習來提升自然界影像的表徵學習。同時,作者還介紹了一個新的數據集 Nature Multi-View (NMV),包含超過300萬對地面和航空影像,涵蓋加州6,000多種植物物種。
實驗結果表明,與標準的ImageNet預訓練模型和單一視角的自監督對比方法相比,CRISP的多視角預訓練在物種識別和物種分佈建模等下游任務上都有顯著的性能提升,尤其是在數據稀缺的情況下。此外,CRISP預訓練的表徵還可以用於作物類型映射和城市樹種識別等其他自然界視覺任務,展現了良好的泛化能力。
總的來說,本文提出的CRISP框架和NMV數據集為自然界影像的表徵學習提供了一個新的有效方法,特別是在資源有限的情況下,可以幫助解決生物多樣性監測等關鍵任務。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor