핵심 개념
새로운 메트릭인 Image Caption Concreteness (ICC)는 이미지 캡션의 시각적 구체성을 측정하고 다중 모달 데이터 세트의 품질을 향상시킵니다.
초록
웹 규모의 다중 모달 데이터 세트에서 훈련하는 것이 중요하며, ICC는 시각적-의미론적 정보 손실을 측정하여 훈련에 강한 신호를 제공합니다.
ICC는 다중 모달 데이터 세트에서 고품질 이미지 캡션 샘플을 선택하는 데 효과적이며, 자원 제한적 환경에서 모델 훈련을 위한 강력한 지도 신호를 제공합니다.
ICC는 이미지 캡션의 시각적 구체성을 측정하고, 텍스트의 품질을 향상시키는 데 사용될 수 있습니다.
통계
이미지 캡션의 시각적 구체성을 측정하는 ICC 메트릭
ICC는 다중 모달 데이터 세트의 품질을 향상시키는 데 효과적
인용구
"Our approach leverages strong foundation models for measuring visual-semantic information loss in multimodal representations."
"We demonstrate that ICC is effective at selecting a core of high-quality image-caption samples from web-scale multimodal datasets."