핵심 개념
사전 훈련된 모델의 OOD 일반화 능력은 훈련 데이터의 다양성, 특히 의미론적 클래스 수, 증강 사용, 고해상도 이미지 사용에 크게 좌우된다.
초록
사전 훈련된 모델에서의 OOD 일반화에 영향을 미치는 변수 분석: 연구 논문 요약
참고 문헌: Harun, M.Y., Lee, K., Gallardo, J., Krishnan, G., & Kanan, C. (2024). What Variables Affect Out-of-Distribution Generalization in Pretrained Models? Advances in Neural Information Processing Systems, 38.
본 연구는 터널 효과 가설을 통해 사전 훈련된 심층 신경망(DNN) 임베딩의 전이 가능성과 OOD(Out-of-Distribution) 일반화에 영향을 미치는 요인을 분석하고, 특히 터널 효과의 보편성과 강도에 영향을 미치는 변수를 조사하는 것을 목표로 한다.
연구진은 터널 효과의 강도를 측정하기 위해 OOD 성능을 기반으로 하는 세 가지 지표(% OOD 성능 유지, Pearson 상관관계, ID/OOD 정렬)를 정의하고, SHAP 기반 분석을 사용하여 이미지 해상도, 의미론적 클래스 수, DNN 아키텍처 등 각 변수의 영향을 평가했다. ImageNet-100, CIFAR-10, CIFAR-100을 포함한 다양한 데이터 세트에서 훈련된 64개의 사전 훈련된 ID 백본과 8,604개의 선형 프로브를 사용하여 터널 효과를 악화, 감소 및 제거하는 조건을 식별했다.