이 논문에서는 THQA(Talking Head Quality Assessment) 데이터베이스를 소개한다. THQA 데이터베이스는 20개의 StyleGAN 생성 얼굴 이미지와 8가지 다양한 음성 구동 방식을 사용하여 생성된 800개의 대화형 얼굴 동영상으로 구성되어 있다.
데이터베이스 구축 과정에서 선별된 얼굴 이미지와 음성 데이터의 특성을 분석하였고, 생성된 동영상에서 관찰되는 다양한 품질 저하 현상을 정의하였다. 또한 40명의 참가자를 대상으로 주관적 품질 평가 실험을 수행하여 MOS(Mean Opinion Score)를 수집하였다.
추가로 기존의 이미지 및 동영상 품질 평가 방법을 THQA 데이터베이스에 적용하여 성능을 평가하였다. 실험 결과, 대화형 얼굴 동영상의 품질 평가를 위해서는 기존 방법의 한계가 있음을 확인하였다. 이는 THQA 데이터베이스가 대화형 얼굴 동영상 품질 평가 연구를 위한 유용한 자원이 될 수 있음을 시사한다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問