Kernkonzepte
CLIP과 같은 사전 학습된 비전-언어 모델은 개별 개체의 의미론적 이해 부족으로 복합적 이미지-텍스트 매칭에 어려움을 겪는다. 이를 해결하기 위해 ComCLIP은 이미지를 주체, 객체, 술어 서브이미지로 분해하고 이를 활용하여 개념 수준의 매칭을 수행함으로써 CLIP의 성능을 향상시킨다.
Zusammenfassung
이 논문은 CLIP과 같은 사전 학습된 비전-언어 모델의 한계를 지적하고, 이를 해결하기 위한 새로운 접근법인 ComCLIP을 제안한다.
CLIP은 이미지와 텍스트를 전체적으로 매칭하지만, 주체, 객체, 술어와 같은 복합적 개념 이해에는 어려움을 겪는다. 이는 사전 학습 데이터의 편향성과 모델의 단순한 상관관계 학습에 기인한다.
ComCLIP은 이 문제를 해결하기 위해 이미지를 주체, 객체, 술어 서브이미지로 분해하고, 이를 활용하여 개념 수준의 매칭을 수행한다. 이를 통해 CLIP의 성능을 향상시킬 수 있다.
구체적으로 ComCLIP은 다음과 같은 과정을 거친다:
- 이미지를 주체, 객체, 술어 서브이미지로 분해
- 각 서브이미지와 텍스트 개체 간 유사도 계산
- 가중치를 부여하여 서브이미지 특징을 원본 이미지 특징에 융합
- 융합된 이미지 특징과 텍스트 특징 간 유사도 계산
이러한 접근법을 통해 ComCLIP은 CLIP의 성능을 향상시킬 수 있으며, 추가 학습 없이 적용할 수 있다.
Statistiken
이미지와 텍스트 간 매칭 성능을 높이기 위해서는 주체, 객체, 술어 개념의 정확한 이해가 필요하다.
CLIP과 같은 사전 학습 모델은 이러한 개념 이해에 어려움을 겪는다.
Zitate
"CLIP treats the image and the text as a whole for alignment and ignores the compositional matching of disentangled concepts, especially for tasks that require the model's compositional understanding ability."
"These may be ascribed to shortcut learning (Geirhos et al., 2020) and dataset biases in pretraining, where the models learn the correspondence between entities and images implicitly and are thus vulnerable to spurious correlations, incurring biases toward particular objects/subjects/predicates and combinations."