Konsep Inti
본 연구는 CLIP 모델의 지식을 활용하여 다중 모달 대비 학습을 수행하고, 다양한 부정적 샘플 간 차이를 고려하는 적응형 각도 마진 대비 학습 기법을 제안함으로써 문장 임베딩의 성능을 향상시킨다.
Abstrak
본 연구는 문장 임베딩 학습을 위한 새로운 접근법인 KDMCSE(Knowledge Distillation Multimodal Contrastive learning of Sentence Embeddings)를 제안한다.
- 지식 증류 기반 다중 모달 대비 학습:
- CLIP 모델의 텍스트 및 이미지 표현을 활용하여 문장 임베딩을 학습
- 부정적 샘플 필터링을 통해 노이즈 제거
- 적응형 각도 마진 대비 학습(AdapACSE):
- 부정적 샘플 간 차이를 고려하여 적응적으로 마진을 조절
- 보다 강력한 판별력을 가진 문장 임베딩 학습
실험 결과, 제안 모델은 기존 접근법 대비 의미적 텍스트 유사성 벤치마크에서 우수한 성능을 보였다. 이는 다중 모달 정보와 적응형 마진 기법이 문장 임베딩 학습에 효과적임을 입증한다.
Statistik
문장과 이미지의 코사인 유사도가 0.85-0.9 미만인 경우 노이즈로 간주하여 제거한다.
부정적 샘플 간 코사인 거리 |1-α|가 클수록 더 큰 마진을 적용한다.
Kutipan
"True semantic understanding often stems from associations in the real world rather than mere textual statistics."
"Mitigating this issue requires preemptively filtering out these semantically similar samples before loss calculation, ensuring a noise-reduced training environment."
"Leveraging the teacher model, CLIP, we produce soft labels that signify the similarity between samples."