Core Concepts
AI 기술을 활용한 대화형 얼굴 동영상 생성 기술의 발전에 따라, 이러한 동영상의 품질 평가를 위한 데이터베이스와 평가 방법이 필요하다.
Abstract
이 논문에서는 THQA(Talking Head Quality Assessment) 데이터베이스를 소개한다. THQA 데이터베이스는 20개의 StyleGAN 생성 얼굴 이미지와 8가지 다양한 음성 구동 방식을 사용하여 생성된 800개의 대화형 얼굴 동영상으로 구성되어 있다.
데이터베이스 구축 과정에서 선별된 얼굴 이미지와 음성 데이터의 특성을 분석하였고, 생성된 동영상에서 관찰되는 다양한 품질 저하 현상을 정의하였다. 또한 40명의 참가자를 대상으로 주관적 품질 평가 실험을 수행하여 MOS(Mean Opinion Score)를 수집하였다.
추가로 기존의 이미지 및 동영상 품질 평가 방법을 THQA 데이터베이스에 적용하여 성능을 평가하였다. 실험 결과, 대화형 얼굴 동영상의 품질 평가를 위해서는 기존 방법의 한계가 있음을 확인하였다. 이는 THQA 데이터베이스가 대화형 얼굴 동영상 품질 평가 연구를 위한 유용한 자원이 될 수 있음을 시사한다.
Stats
대화형 얼굴 동영상에서 관찰되는 주요 품질 저하 현상은 블러링, 노이즈, 아티팩트, 입술-음성 불일치, 얼굴 근육 경련, 부자연스러운 표정 및 동작, 배경 왜곡 등이다.
주관적 품질 평가 실험 결과, 음성 구동 방식, 연령, 성별에 따라 대화형 얼굴 동영상의 품질 차이가 관찰되었다.
Quotes
"AI 기술을 활용한 대화형 얼굴 동영상 생성 기술의 발전에 따라, 이러한 동영상의 품질 평가를 위한 데이터베이스와 평가 방법이 필요하다."
"실험 결과, 대화형 얼굴 동영상의 품질 평가를 위해서는 기존 방법의 한계가 있음을 확인하였다."