이 논문은 HYPE(HYPerbolic Entailment filtering)라는 새로운 데이터 필터링 방법을 소개한다. HYPE는 하이퍼볼릭 임베딩과 함의 개념을 활용하여 이미지-텍스트 데이터셋에서 의미 있고 잘 정렬된 데이터를 추출한다.
기존의 CLIP 기반 필터링 방법은 데이터의 정렬 여부만을 고려하지만, HYPE는 데이터의 구체성(specificity)도 함께 고려한다. 구체성은 각 데이터 포인트가 얼마나 고유하게 정의되어 있는지를 나타내는 지표이다. HYPE는 이미지 구체성 ϵi와 텍스트 구체성 ϵt를 정의하여 이를 활용한다.
HYPE는 ϵi, ϵt, CLIP 유사도 cos(θ), 하이퍼볼릭 거리 -dL, ImageNet 클러스터링 필터 cIN 등 5가지 지표를 종합적으로 활용한다. 이를 통해 HYPE는 기존 방법들이 놓치던 의미 없거나 불충분한 이미지-텍스트 쌍을 효과적으로 제거할 수 있다.
HYPE는 DataComp 벤치마크의 작은 규모와 중간 규모 데이터셋에서 최고 성능을 달성했다. 또한 ϵi 지표를 활용하여 이미지 전용 데이터셋을 생성하고 이를 이용한 자기지도 학습 모델이 기존 방법보다 우수한 성능을 보였다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Wonjae Kim,S... a las arxiv.org 04-29-2024
https://arxiv.org/pdf/2404.17507.pdfConsultas más profundas