מושגי ליבה
CLIP과 같은 사전 학습된 비전-언어 모델은 개별 개체의 의미론적 이해 부족으로 복합적 이미지-텍스트 매칭에 어려움을 겪는다. 이를 해결하기 위해 ComCLIP은 이미지를 주체, 객체, 술어 서브이미지로 분해하고 이를 활용하여 개념 수준의 매칭을 수행함으로써 CLIP의 성능을 향상시킨다.
תקציר
이 논문은 CLIP과 같은 사전 학습된 비전-언어 모델의 한계를 지적하고, 이를 해결하기 위한 새로운 접근법인 ComCLIP을 제안한다.
CLIP은 이미지와 텍스트를 전체적으로 매칭하지만, 주체, 객체, 술어와 같은 복합적 개념 이해에는 어려움을 겪는다. 이는 사전 학습 과정에서 발생한 편향 때문이다.
ComCLIP은 이 문제를 해결하기 위해 이미지를 주체, 객체, 술어 서브이미지로 분해하고, 이를 활용하여 개념 수준의 매칭을 수행한다. 이를 통해 CLIP의 성능을 향상시킬 수 있다.
구체적으로 ComCLIP은 다음과 같은 과정을 거친다:
- 이미지를 주체, 객체, 술어 서브이미지로 분해
- 텍스트에서 주체, 객체, 술어 개체를 추출
- 각 서브이미지와 개체 간 유사도 계산 및 가중치 부여
- 가중치가 부여된 서브이미지 임베딩을 원본 이미지 임베딩에 합성하여 최종 이미지 임베딩 생성
- 최종 이미지 임베딩과 텍스트 임베딩 간 유사도 계산
이러한 과정을 통해 ComCLIP은 개념 수준의 매칭을 수행하여 CLIP의 성능을 향상시킬 수 있다.
סטטיסטיקה
이미지와 텍스트 간 매칭 성능을 높이기 위해서는 개별 개체(주체, 객체, 술어)의 의미론적 이해가 중요하다.
CLIP과 같은 사전 학습 모델은 개체 간 잘못된 상관관계를 학습하여 복합적 매칭에 어려움을 겪는다.
ציטוטים
"CLIP treats the image and the text as a whole for alignment and ignores the compositional matching of disentangled concepts, especially for tasks that require the model's compositional understanding ability."
"These may be ascribed to shortcut learning (Geirhos et al., 2020) and dataset biases in pretraining, where the models learn the correspondence between entities and images implicitly and are thus vulnerable to spurious correlations, incurring biases toward particular objects/subjects/predicates and combinations."