이 연구는 AI 생성 비디오(AIGC) 품질 평가를 시각적 조화, 비디오-텍스트 일관성, 도메인 분포 격차의 세 가지 차원으로 나누어 접근한다.
시각적 조화 측면에서는 DOVER 모델을 활용하여 미학적, 기술적 품질을 평가한다. 비디오-텍스트 일관성 측면에서는 명시적 프롬프트 주입, 암시적 텍스트 지도, 캡션 유사도 등의 방법을 사용한다. 또한 도메인 분포 격차 측면에서는 생성 모델 예측 보조 분류기를 도입하여 더 discriminative한 특징을 추출한다.
이러한 다각도의 접근을 통해 AIGC 비디오 품질을 종합적으로 평가할 수 있다. 실험 결과, 제안 방법은 기존 VQA 방법들을 뛰어넘는 성능을 보였으며, NTIRE 2024 AIGC 비디오 품질 평가 대회에서 3위를 차지하는 데 사용되었다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Bowen Qu,Xia... at arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.13573.pdfDeeper Inquiries