본 연구 논문에서는 사전 훈련된 멀티모달 대규모 언어 모델(MLLM)을 활용하여 이미지 품질을 평가하는 새로운 제로샷 학습 기반 프레임워크인 Dog-IQA를 제안합니다. Dog-IQA는 두 가지 핵심 메커니즘을 통해 기존의 이미지 품질 평가(IQA) 방법의 한계를 극복하고자 합니다.
기존의 MLLM 기반 IQA 방법은 정확한 점수 출력의 어려움과 사람마다 다른 숫자 점수 해석의 모호성 때문에 어려움을 겪었습니다. Dog-IQA는 이러한 문제를 해결하기 위해 텍스트와 숫자를 결합한 프롬프트를 사용하여 MLLM이 각 품질 수준에 대한 명확한 표준을 갖도록 합니다. 이를 통해 MLLM은 객관적이고 일관된 방식으로 이미지 품질을 평가할 수 있습니다.
사람은 이미지를 평가할 때 전역적인 구조와 지역적인 부분을 모두 고려합니다. Dog-IQA는 이러한 인간의 인지 과정을 모방하기 위해 혼합 세분화 집계 메커니즘을 사용합니다. 먼저, 이미지는 의미론적 객체를 기반으로 여러 개의 하위 이미지로 분할됩니다. 그런 다음, MLLM은 각 하위 이미지와 전체 이미지의 품질을 평가합니다. 마지막으로, 모든 점수는 영역 가중 평균 방식을 사용하여 집합되어 최종 품질 점수를 계산합니다.
Dog-IQA의 성능을 평가하기 위해 KonIQ, LIVE Challenge, SPAQ, KADID-10k, AGIQA-3k 등 다양한 데이터 세트를 사용하여 광범위한 실험을 수행했습니다. 결과는 Dog-IQA가 기존의 훈련 기반 및 훈련 없는 IQA 방법을 모두 능가하는 최첨단 성능을 달성했음을 보여줍니다. 특히, Dog-IQA는 교차 데이터 세트 시나리오에서 뛰어난 성능을 보여주어 다양한 이미지 유형과 품질 변형에 대한 견고성과 일반화 능력을 입증했습니다.
Dog-IQA는 사전 훈련된 MLLM의 뛰어난 이미지 이해 능력을 활용하여 이미지 품질을 정확하고 효율적으로 평가할 수 있는 새로운 프레임워크입니다. 표준 기반 채점 메커니즘과 혼합 세분화 집계 메커니즘을 통해 Dog-IQA는 기존 방법의 한계를 극복하고 제로샷 IQA 작업의 새로운 패러다임을 제시합니다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Kai Liu, Ziq... lúc arxiv.org 10-04-2024
https://arxiv.org/pdf/2410.02505.pdfYêu cầu sâu hơn