이 논문은 HYPE(HYPerbolic Entailment filtering)라는 새로운 데이터 필터링 방법을 소개한다. HYPE는 하이퍼볼릭 임베딩과 함의 개념을 활용하여 이미지-텍스트 데이터셋에서 의미 있고 잘 정렬된 데이터를 추출한다.
기존의 CLIP 기반 필터링 방법은 데이터의 정렬 여부만을 고려하지만, HYPE는 데이터의 구체성(specificity)도 함께 고려한다. 구체성은 각 데이터 포인트가 얼마나 고유하게 정의되어 있는지를 나타내는 지표이다. HYPE는 이미지 구체성 ϵi와 텍스트 구체성 ϵt를 정의하여 이를 활용한다.
HYPE는 ϵi, ϵt, CLIP 유사도 cos(θ), 하이퍼볼릭 거리 -dL, ImageNet 클러스터링 필터 cIN 등 5가지 지표를 종합적으로 활용한다. 이를 통해 HYPE는 기존 방법들이 놓치던 의미 없거나 불충분한 이미지-텍스트 쌍을 효과적으로 제거할 수 있다.
HYPE는 DataComp 벤치마크의 작은 규모와 중간 규모 데이터셋에서 최고 성능을 달성했다. 또한 ϵi 지표를 활용하여 이미지 전용 데이터셋을 생성하고 이를 이용한 자기지도 학습 모델이 기존 방법보다 우수한 성능을 보였다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Wonjae Kim,S... klo arxiv.org 04-29-2024
https://arxiv.org/pdf/2404.17507.pdfSyvällisempiä Kysymyksiä