이 논문은 다중 모달 대조 학습(MMCL)이 단일 모달 지도 학습(SL)에 비해 분포 변화에 더 강건한 이유를 분석한다.
첫째, MMCL은 동일 클래스 내 대조를 통해 분산이 큰 일반화 가능한 특징을 쉽게 학습할 수 있다. 반면 SL은 분산이 작은 특징에 의존하는 경향이 있어 분포 변화에 취약하다.
둘째, MMCL은 클래스 간 특징 공유를 통해 한 클래스에서 관찰된 정보를 다른 클래스에 적용할 수 있다. 예를 들어 나무 이미지에서 관찰된 녹색 잎 정보를 늑대 이미지의 나무에 적용하여 녹색 잎이 나무의 필수적인 특징이 아님을 학습할 수 있다. 반면 SL은 이러한 정보를 활용하지 못한다.
또한 논문은 풍부한 이미지 캡션이 MMCL의 강건성 향상에 필수적임을 보인다. 캡션에 특징의 변동성이 충분히 반영되지 않으면 MMCL의 강건성이 저하된다.
실험 결과는 이론적 분석을 뒷받침한다. 합성 데이터와 실제 데이터(MSCOCO, Conceptual Captions)에서 MMCL이 SL보다 분포 변화에 강건함을 확인했다. 또한 캡션의 풍부성과 동일 클래스 내 대조가 MMCL의 강건성에 중요한 역할을 함을 보였다.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Yihao Xue,Si... às arxiv.org 03-19-2024
https://arxiv.org/pdf/2310.04971.pdfPerguntas Mais Profundas