Grunnleggende konsepter
이미지-텍스트 매칭 작업은 다중성과 불완전한 주석으로 인한 고유한 모호성으로 인해 어려움을 겪고 있다. 결정론적 함수는 이러한 모호성을 포착하기에 충분하지 않아, 확률적 임베딩을 탐구하여 이 문제를 해결하고자 한다. 그러나 기존 확률적 이미지-텍스트 매칭 접근법에는 두 가지 주요 단점이 있다: 몬테카를로 근사로 인한 과도한 계산 부담, 그리고 다수의 거짓 부정 사례로 인한 손실 포화 문제. 이 논문은 폐쇄형 해를 가진 새로운 확률적 거리를 도입하여 이러한 문제를 해결하는 개선된 확률적 교차 모달 임베딩(PCME++)을 제안한다. 또한 거짓 부정 사례에 대한 영향을 방지하기 위해 의사 양성 샘플 도입과 확률적 매칭을 위한 혼합 샘플 데이터 증강 기법을 제안한다.
Sammendrag
이 논문은 이미지-텍스트 매칭(ITM) 작업의 고유한 모호성을 해결하기 위해 확률적 임베딩을 제안한다. ITM 작업은 다중성과 불완전한 주석으로 인해 고유한 모호성을 겪는다. 결정론적 함수는 이러한 모호성을 포착하기에 충분하지 않다.
이 논문은 PCME++라는 개선된 확률적 교차 모달 임베딩을 제안한다. PCME++는 다음과 같은 특징을 가진다:
- 폐쇄형 해를 가진 새로운 확률적 거리 도입: 기존 PCME의 몬테카를로 근사로 인한 과도한 계산 부담을 해결한다.
- 의사 양성 샘플 도입: 다수의 거짓 부정 사례로 인한 손실 포화 문제를 해결한다.
- 확률적 매칭을 위한 혼합 샘플 데이터 증강: 확률적 매칭을 위한 새로운 데이터 증강 기법을 제안한다.
실험 결과, PCME++는 MS-COCO Caption과 확장 벤치마크 CxC, ECCV Caption에서 기존 최신 ITM 방법들을 능가하는 성능을 보였다. 또한 PCME++는 노이즈가 있는 이미지-텍스트 대응 문제에서도 강건성을 보였다. 마지막으로, PCME++의 텍스트 불확실성을 활용한 제로샷 분류를 위한 프롬프트 필터링 기법을 소개했다.
Statistikk
88.2%의 캡션-이미지 양성 쌍과 72.1%의 이미지-캡션 양성 쌍이 거짓 부정으로 표시되어 있다.
COCO Caption 데이터셋에는 실제 양성 이미지의 8.47배 더 많은 이미지가 포함되어 있다.
Sitater
"이미지-텍스트 매칭 작업은 다중성과 불완전한 주석으로 인한 고유한 모호성으로 인해 어려움을 겪고 있다."
"결정론적 함수는 이러한 모호성을 포착하기에 충분하지 않아, 확률적 임베딩을 탐구하여 이 문제를 해결하고자 한다."
"PCME++는 폐쇄형 해를 가진 새로운 확률적 거리를 도입하여 기존 PCME의 과도한 계산 부담을 해결한다."