이미지-텍스트 매칭 작업은 다중성과 불완전한 주석으로 인한 고유한 모호성으로 인해 어려움을 겪고 있다. 결정론적 함수는 이러한 모호성을 포착하기에 충분하지 않아, 확률적 임베딩을 탐구하여 이 문제를 해결하고자 한다. 그러나 기존 확률적 이미지-텍스트 매칭 접근법에는 두 가지 주요 단점이 있다: 몬테카를로 근사로 인한 과도한 계산 부담, 그리고 다수의 거짓 부정 사례로 인한 손실 포화 문제. 이 논문은 폐쇄형 해를 가진 새로운 확률적 거리를 도입하여 이러한 문제를 해결하는 개선된 확률적 교차 모달 임베딩(PCME++)을 제안한다. 또한 거짓 부정 사례에 대한 영향을 방지하기 위해 의사 양성 샘플 도입과 확률적 매칭을 위한 혼합 샘플 데이터 증강 기법을 제안한다.
CLIP과 같은 사전 학습된 비전-언어 모델은 개별 개체의 의미론적 이해 부족으로 복합적 이미지-텍스트 매칭에 어려움을 겪는다. 이를 해결하기 위해 ComCLIP은 이미지를 주체, 객체, 술어 서브이미지로 분해하고 이를 활용하여 개념 수준의 매칭을 수행함으로써 CLIP의 성능을 향상시킨다.
CLIP과 같은 사전 학습된 비전-언어 모델은 개별 개체의 의미론적 이해 부족으로 복합적 이미지-텍스트 매칭에 어려움을 겪는다. 이를 해결하기 위해 ComCLIP은 이미지를 주체, 객체, 술어 서브이미지로 분해하고 이를 활용하여 개념 수준의 매칭을 수행함으로써 CLIP의 성능을 향상시킨다.
CLIP과 같은 사전 학습된 비전-언어 모델은 개별 개체에 대한 이해가 부족하여 복합적인 이미지-텍스트 매칭에 어려움을 겪는다. 이를 해결하기 위해 ComCLIP은 이미지를 주체, 객체, 술어 서브이미지로 분해하고 이를 활용하여 개념 단위 매칭을 수행함으로써 CLIP의 성능을 향상시킨다.