核心概念
CLIP 기반의 비지도 학습 방법을 통해 다중 레이블 이미지 분류를 개선합니다.
統計資料
CLIP는 400만 개의 이미지-텍스트 쌍에서 학습되었습니다.
CLIP는 다중 레이블 분류에 적합하지 않습니다.
CDUL은 MS-COCO, PASCAL VOC 2007, PASCAL VOC 2012 및 NUS 데이터셋에서 우수한 성능을 보입니다.
引述
"CLIP는 다중 레이블 분류에 적합하지 않습니다."
"CDUL은 다양한 데이터셋에서 우수한 성능을 보입니다."