المفاهيم الأساسية
제한된 데이터셋 크기로 인한 문제를 해결하기 위해 이미지 품질 평가(IQA)를 위한 새로운 사전 훈련 프레임워크인 ATTIQA(ATTribute-aware IQA)를 제안하며, 이는 CLIP의 광범위한 이미지-텍스트 지식과 대규모 데이터셋의 확장성을 효과적으로 활용하여 뛰어난 일반화 능력을 보여줍니다.
الملخص
ATTIQA: 속성 인식 사전 훈련을 사용한 일반화 가능한 이미지 품질 특징 추출기
본 논문은 제한된 데이터셋 크기로 인해 어려움을 겪는 비 참조 이미지 품질 평가(NR-IQA) 문제를 다루고 있습니다. 저자들은 특히 견고하고 일반화 가능한 모델 개발을 위한 새로운 사전 훈련 프레임워크인 ATTIQA(ATTribute-aware IQA)를 제안합니다.
본 연구의 주요 목표는 대규모 데이터셋에서 품질 관련 지식을 선택적으로 추출하고 대규모 데이터셋의 확장성을 활용하여 IQA를 위한 일반화 가능한 표현을 구축하는 것입니다.
ATTIQA는 CLIP(Vision Language Model)의 광범위한 지식과 레이블이 지정되지 않은 대규모 데이터셋의 확장성을 효과적으로 통합하여 향상된 일반화 기능을 제공합니다.
핵심 구성 요소
속성 점수 생성: CLIP의 제로샷 추론을 사용하여 주어진 이미지에 대한 다섯 가지 속성(선명도, 대비, 밝기, 화려함, 노이즈) 점수를 생성합니다.
프롬프트 선택: 대규모 언어 모델(LLM)을 사용하여 후보 프롬프트 목록을 생성하고, 프록시 작업을 통해 후보의 점수 생성 능력을 평가하여 이미지 속성 점수 생성에 가장 적합한 프롬프트를 식별합니다.
속성 인식 사전 훈련 파이프라인: CLIP에서 파생된 의사 레이블을 사용하여 대상 IQA 모델을 훈련시키고, 공유 인코더 백본과 각 이미지 속성에 대한 다섯 개의 속성 헤드로 구성됩니다.
미세 조정: 대상 IQA 데이터셋에서 모델을 미세 조정하여 MOS를 예측합니다.