Concetti Chiave
본 논문은 이미지 복잡도를 효과적으로 학습하기 위해 레이블링되지 않은 데이터를 활용하는 비지도 학습 프레임워크인 CLIC을 제안하고, 이를 통해 기존 방법 대비 효율적인 이미지 복잡도 표현 학습이 가능함을 보여줍니다.
Sintesi
CLIC: 비지도 학습 기반 이미지 복잡도 표현을 위한 대조 학습 프레임워크
본 연구는 이미지 복잡도를 평가하는 데 있어 수작업 라벨링의 높은 비용과 주관적 편향을 피하기 위해, 레이블링되지 않은 데이터를 활용하여 이미지 복잡도 특징을 효율적으로 학습하는 것을 목표로 합니다.
본 논문에서는 대조 학습 기반의 비지도 학습 프레임워크인 CLIC을 제안합니다. CLIC은 다음과 같은 방법을 통해 이미지 복잡도를 학습합니다.
긍정 및 부정 샘플 선택 전략: 이미지 복잡도 표현 작업에 맞춰 고안된 긍정 및 부정 샘플 선택 전략을 통해 모델이 이미지의 내용, 범주 또는 객체 속성보다는 복잡한 특징에 집중하도록 유도합니다. 원본 이미지와 가장 유사한 뷰를 긍정 샘플로 선택하고, 미니 배치 외부의 이미지를 부정 샘플로 간주합니다.
전역 엔트로피 사전 정보 기반 복잡성 인식 손실: 이미지의 전역 엔트로피를 사전 정보로 활용하여 복잡성 인식 손실(CAL)을 제안합니다. 이를 통해 모델이 이미지의 내용, 범주 또는 객체 속성보다는 이미지 복잡도 특징에 집중하도록 유도합니다.
대조 학습 프레임워크: 쿼리 인코더와 키 인코더를 사용하여 대조 학습을 수행합니다. 쿼리 인코더는 입력 이미지에서 복잡도 특징을 추출하고, 키 인코더는 입력 이미지를 처리하여 128차원 벡터를 생성합니다. 두 인코더는 동일한 네트워크 구조를 공유하며, 쿼리 인코더는 기울기 업데이트를 수행하고 키 인코더는 모멘텀 업데이트를 사용합니다.