VLOGGER는 단일 입력 이미지와 오디오 입력을 활용하여 사실적이고 시간적으로 일관된 동영상을 생성하는 새로운 프레임워크입니다. 얼굴 표정, 시선, 입술 움직임뿐만 아니라 상체 및 손 제스처까지 생성하여 음성 기반 합성을 한 단계 더 발전시켰습니다.