핵심 개념
장문 대화 시스템에서 이미지와 대화 간의 일관성을 분석하여 OOD(Out-of-Distribution) 데이터를 효과적으로 감지하는 새로운 프레임워크 DIAEF(Dialogue Image Aligning and Enhancing Framework)를 제안합니다.
초록
다중 모달 장문 대화에서의 OOD 탐지: 연구 논문 요약
참고문헌: Gao, R., Wu, X., Luo, S., Han, C., & Liu, F. (2024). 'No' Matters: Out-of-Distribution Detection in Multimodality Long Dialogue. arXiv preprint arXiv:2410.23883.
본 연구는 다중 모달 장문 대화, 특히 이미지와 대화가 결합된 맥락에서 OOD(Out-of-Distribution) 데이터를 효과적으로 탐지하는 방법을 제시하는 것을 목표로 합니다.
본 연구에서는 DIAEF(Dialogue Image Aligning and Enhancing Framework)라는 새로운 프레임워크를 제안합니다. DIAEF는 이미지와 대화를 동일한 latent space에 매핑하는 사전 학습된 vision-language 모델(예: CLIP, BLIP)을 사용합니다. 이후, 이미지와 대화 간의 유사도 점수를 측정하고, 이미지 및 텍스트 각각과 레이블 간의 유사도 점수를 계산하여 최종 OOD 점수를 계산합니다. 본 연구에서는 다양한 OOD 점수 함수(예: 확률, MSP, Logits, Energy, ODIN, Mahalanobis 거리)와 점수 집계 방법(예: 최대값, 합계)을 실험적으로 비교 분석합니다.