Centrala begrepp
AI 생성 비디오의 품질을 시각적 조화, 비디오-텍스트 일관성, 도메인 분포 격차의 세 가지 차원에서 평가하고 개선한다.
Sammanfattning
이 연구는 AI 생성 비디오(AIGC) 품질 평가를 시각적 조화, 비디오-텍스트 일관성, 도메인 분포 격차의 세 가지 차원으로 나누어 접근한다.
시각적 조화 측면에서는 DOVER 모델을 활용하여 미학적, 기술적 품질을 평가한다. 비디오-텍스트 일관성 측면에서는 명시적 프롬프트 주입, 암시적 텍스트 지도, 캡션 유사도 등의 방법을 사용한다. 또한 도메인 분포 격차 측면에서는 생성 모델 예측 보조 분류기를 도입하여 더 discriminative한 특징을 추출한다.
이러한 다각도의 접근을 통해 AIGC 비디오 품질을 종합적으로 평가할 수 있다. 실험 결과, 제안 방법은 기존 VQA 방법들을 뛰어넘는 성능을 보였으며, NTIRE 2024 AIGC 비디오 품질 평가 대회에서 3위를 차지하는 데 사용되었다.
Statistik
AIGC 비디오는 일반적인 비디오와 달리 상식에 어긋나는 시각적 불일치, 텍스트 프롬프트와의 불일치, 다양한 생성 모델 간 분포 격차 등의 문제가 있다.
제안 방법은 시각적 조화, 비디오-텍스트 일관성, 도메인 분포 격차의 세 가지 차원에서 AIGC 비디오 품질을 평가한다.
실험 결과, 제안 방법은 기존 VQA 방법들을 뛰어넘는 성능을 보였으며, NTIRE 2024 AIGC 비디오 품질 평가 대회에서 3위를 차지했다.
Citat
"AI 생성 비디오의 품질 평가에는 다양한 과제가 존재한다: 상식에 어긋나는 시각적 불일치, 텍스트 프롬프트와의 불일치, 다양한 생성 모델 간 분포 격차 등."
"제안 방법은 시각적 조화, 비디오-텍스트 일관성, 도메인 분포 격차의 세 가지 차원에서 AIGC 비디오 품질을 평가한다."
"실험 결과, 제안 방법은 기존 VQA 방법들을 뛰어넘는 성능을 보였으며, NTIRE 2024 AIGC 비디오 품질 평가 대회에서 3위를 차지했다."