Core Concepts
대규모 레이블 없는 데이터를 활용하여 모든 상황에서 강력한 모노큘러 깊이 추정 모델을 구축한다.
Abstract
이 연구는 모노큘러 깊이 추정을 위한 강력한 기반 모델을 구축하는 것을 목표로 한다. 기존 연구들은 주로 레이블이 달린 데이터셋을 활용했지만, 이 연구에서는 대규모 레이블 없는 데이터를 활용하여 데이터 커버리지를 크게 확장하고자 한다.
구체적으로:
6,200만 장의 다양한 레이블 없는 이미지를 자동으로 주석 처리하여 데이터셋을 구축했다.
레이블 있는 이미지와 레이블 없는 이미지를 함께 학습할 때, 레이블 없는 이미지에 강력한 데이터 증강을 적용하여 모델이 추가적인 시각적 지식을 습득하도록 했다.
사전 학습된 인코더의 풍부한 의미론적 표현을 보존하는 보조 손실 함수를 도입했다.
이를 통해 제안한 모델은 기존 최고 성능 모델 대비 다양한 unseen 데이터셋에서 월등한 제로샷 성능을 보였다. 또한 메트릭 깊이 정보로 fine-tuning 시 새로운 SOTA를 달성했다.
Stats
62M개의 다양한 레이블 없는 이미지를 자동으로 주석 처리하여 데이터셋을 구축했다.
1.5M개의 레이블이 달린 이미지를 6개의 공개 데이터셋에서 수집했다.
Quotes
"우리는 대규모 레이블 없는 데이터의 가치에 주목한다."
"레이블 없는 이미지에 강력한 데이터 증강을 적용하여 모델이 추가적인 시각적 지식을 습득하도록 한다."
"사전 학습된 인코더의 풍부한 의미론적 표현을 보존하는 보조 손실 함수를 도입한다."