핵심 개념
자기지도 학습을 통해 학습된 표현은 차원 붕괴에 취약할 수 있다. 이 논문에서는 국소 차원 정규화 기법(LDReg)을 제안하여 국소적 및 전역적 차원 붕괴를 해결하고 표현 학습의 품질을 향상시킨다.
초록
이 논문은 자기지도 학습(SSL)에서 표현의 차원 붕괴 문제를 다룬다. 기존 연구는 전역적 차원 붕괴에 초점을 맞추었지만, 이 논문에서는 표현이 전역적으로는 높은 차원을 가질 수 있지만 국소적으로 붕괴될 수 있음을 보여준다.
이를 해결하기 위해 저자들은 국소 차원 정규화(LDReg) 기법을 제안한다. LDReg는 Fisher-Rao 거리를 이용하여 각 데이터 포인트의 국소 거리 분포를 최적화함으로써 국소 차원을 높이는 것을 목표로 한다. 이를 통해 표현의 품질을 향상시킬 수 있다.
저자들은 또한 국소 차원 측정 및 비교에 대한 이론적 통찰을 제공한다. 구체적으로 국소 차원은 로그 스케일로 비교하는 것이 더 적절하며, 국소 차원 값을 집계할 때는 산술평균보다 기하평균이 더 자연스럽다는 것을 보였다.
실험 결과, LDReg는 다양한 SSL 방법론(SimCLR, BYOL, MAE 등)에 적용되어 표현 품질을 일관되게 향상시켰다. 이는 LDReg가 국소 및 전역 차원 붕괴를 모두 해결할 수 있음을 보여준다.
통계
국소 차원 정규화(LDReg)를 적용하면 SimCLR, BYOL, MAE 등 다양한 SSL 방법의 ImageNet 선형 평가 정확도가 향상된다.
LDReg를 적용하면 ResNet-50 기반 SSL 모델의 전이 학습 및 COCO 데이터셋에서의 객체 탐지/분할 성능이 향상된다.
LDReg를 적용하면 SSL 모델의 국소 및 전역 차원이 모두 증가한다.
인용구
"representations can span over high dimensional space globally, but collapse locally."
"LID values are better compared using the logarithmic scale rather than the linear scale"
"the geometric mean is a more natural choice than the arithmetic or harmonic means when aggregating LID values"