Alapfogalmak
현대 신경망 모델들은 작은 현실적인 이미지 변환에 대해 여전히 취약하며, 이는 기존의 접근법으로는 해결되지 않는다.
Kivonat
이 논문은 현대 신경망 모델들이 작은 이미지 변환에 대해 취약하다는 것을 보여준다. 기존에 제안된 두 가지 접근법 - 대규모 데이터셋과 데이터 증강을 통한 접근, 그리고 샘플링 이론에 기반한 아키텍처 변경 - 모두 현실적인 이미지 변환에 대한 강건성을 충분히 제공하지 못한다.
저자들은 "Robust Inference by Crop Selection" 이라는 간단한 방법을 제안한다. 이 방법은 기존 모델을 변경하지 않고도 작은 이미지 변환에 대한 강건성을 크게 향상시킬 수 있다. 이론적 분석을 통해 제안 방법의 강건성 하한을 증명하였으며, 실험 결과 DINOv2 모델에 적용했을 때 1픽셀 변환에 대해 95% 이상의 강건성을 달성하면서도 1% 미만의 정확도 하락만 있었음을 보였다. 또한 순환 이동에 대해서는 100% 강건성을 달성할 수 있음을 보였다.
Statisztikák
1픽셀 변환에 대해 DINOv2 모델의 "골프공" 클래스 확률이 32개의 서로 다른 224x224 크롭에서 크게 변동된다.
1픽셀 변환에도 사람이 거의 구분할 수 없는 수준의 변화가 있다.
Idézetek
"In ultra-large scale datasets, accuracy/robustness might naturally come from dataset size itself rather than model priors."
"large-scale task and dataset agnostic pre-training combined with a reorientation towards zero-shot and fewshot benchmarking on broad evaluation suites (as advocated by Yogatama et al. [37] and Linzen [19]) promotes the development of more robust systems"