핵심 개념
다중 모달 대조 학습(MMCL)은 단일 모달 지도 학습(SL)에 비해 분포 변화에 더 강건한 표현을 학습할 수 있다. 이는 MMCL의 두 가지 메커니즘 때문이다: 1) 동일 클래스 내 대조를 통한 일반화 가능한 특징 학습, 2) 클래스 간 특징 공유를 통한 과도한 상관관계 극복.
초록
이 논문은 다중 모달 대조 학습(MMCL)이 단일 모달 지도 학습(SL)에 비해 분포 변화에 더 강건한 이유를 분석한다.
첫째, MMCL은 동일 클래스 내 대조를 통해 분산이 큰 일반화 가능한 특징을 쉽게 학습할 수 있다. 반면 SL은 분산이 작은 특징에 의존하는 경향이 있어 분포 변화에 취약하다.
둘째, MMCL은 클래스 간 특징 공유를 통해 한 클래스에서 관찰된 정보를 다른 클래스에 적용할 수 있다. 예를 들어 나무 이미지에서 관찰된 녹색 잎 정보를 늑대 이미지의 나무에 적용하여 녹색 잎이 나무의 필수적인 특징이 아님을 학습할 수 있다. 반면 SL은 이러한 정보를 활용하지 못한다.
또한 논문은 풍부한 이미지 캡션이 MMCL의 강건성 향상에 필수적임을 보인다. 캡션에 특징의 변동성이 충분히 반영되지 않으면 MMCL의 강건성이 저하된다.
실험 결과는 이론적 분석을 뒷받침한다. 합성 데이터와 실제 데이터(MSCOCO, Conceptual Captions)에서 MMCL이 SL보다 분포 변화에 강건함을 확인했다. 또한 캡션의 풍부성과 동일 클래스 내 대조가 MMCL의 강건성에 중요한 역할을 함을 보였다.
통계
분산이 큰 핵심 특징은 일반화에 유리하지만, 분산이 작은 부수적 특징은 과적합에 취약하다.
한 클래스에서 관찰된 특징 정보가 다른 클래스에 적용되면 일반화에 도움이 된다.
풍부한 캡션은 특징의 변동성을 잘 반영하여 MMCL의 강건성 향상에 필수적이다.
인용구
"MMCL loss accompanied by rich image captions enables at least two mechanisms providing robustness to zero-shot classification."
"the intra-class contrasting between image-text pairs within the same latent class enables MMCL to easily learn generalizable features with a high variance, when they are annotated by text."
"the inter-class feature sharing enabled by MMCL loss allows learning information about a class that only exists and is annotated in other classes."