본 연구 논문에서는 사전 훈련된 멀티모달 대규모 언어 모델(MLLM)을 활용하여 이미지 품질을 평가하는 새로운 제로샷 학습 기반 프레임워크인 Dog-IQA를 제안합니다. Dog-IQA는 두 가지 핵심 메커니즘을 통해 기존의 이미지 품질 평가(IQA) 방법의 한계를 극복하고자 합니다.
기존의 MLLM 기반 IQA 방법은 정확한 점수 출력의 어려움과 사람마다 다른 숫자 점수 해석의 모호성 때문에 어려움을 겪었습니다. Dog-IQA는 이러한 문제를 해결하기 위해 텍스트와 숫자를 결합한 프롬프트를 사용하여 MLLM이 각 품질 수준에 대한 명확한 표준을 갖도록 합니다. 이를 통해 MLLM은 객관적이고 일관된 방식으로 이미지 품질을 평가할 수 있습니다.
사람은 이미지를 평가할 때 전역적인 구조와 지역적인 부분을 모두 고려합니다. Dog-IQA는 이러한 인간의 인지 과정을 모방하기 위해 혼합 세분화 집계 메커니즘을 사용합니다. 먼저, 이미지는 의미론적 객체를 기반으로 여러 개의 하위 이미지로 분할됩니다. 그런 다음, MLLM은 각 하위 이미지와 전체 이미지의 품질을 평가합니다. 마지막으로, 모든 점수는 영역 가중 평균 방식을 사용하여 집합되어 최종 품질 점수를 계산합니다.
Dog-IQA의 성능을 평가하기 위해 KonIQ, LIVE Challenge, SPAQ, KADID-10k, AGIQA-3k 등 다양한 데이터 세트를 사용하여 광범위한 실험을 수행했습니다. 결과는 Dog-IQA가 기존의 훈련 기반 및 훈련 없는 IQA 방법을 모두 능가하는 최첨단 성능을 달성했음을 보여줍니다. 특히, Dog-IQA는 교차 데이터 세트 시나리오에서 뛰어난 성능을 보여주어 다양한 이미지 유형과 품질 변형에 대한 견고성과 일반화 능력을 입증했습니다.
Dog-IQA는 사전 훈련된 MLLM의 뛰어난 이미지 이해 능력을 활용하여 이미지 품질을 정확하고 효율적으로 평가할 수 있는 새로운 프레임워크입니다. 표준 기반 채점 메커니즘과 혼합 세분화 집계 메커니즘을 통해 Dog-IQA는 기존 방법의 한계를 극복하고 제로샷 IQA 작업의 새로운 패러다임을 제시합니다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問