Core Concepts
화자와 청자의 상호작용을 고려하여 청자의 사실적이고 다양한 행동을 생성할 수 있는 프레임워크를 제안한다.
Abstract
이 논문은 화자와 청자의 상호작용을 모델링하는 Dyadic Interaction Modeling (DIM) 프레임워크를 제안한다. DIM은 화자와 청자의 행동을 함께 학습하여 상호작용의 맥락을 이해하고, 이를 바탕으로 청자의 사실적이고 다양한 행동을 생성할 수 있다.
구체적으로 DIM은 다음과 같은 과정을 거친다:
CANDOR 데이터셋을 활용하여 화자와 청자의 행동을 자기지도학습 방식으로 학습한다. 이때 마스킹 기법과 대조학습을 통해 상호작용의 맥락을 효과적으로 학습한다.
학습된 모델을 바탕으로 청자 행동 생성 모델 DIM-Listener를 fine-tuning한다. DIM-Listener는 화자의 음성과 행동을 입력받아 청자의 사실적이고 다양한 표정 및 머리 움직임을 생성한다.
생성된 청자 행동을 사실적인 비디오로 렌더링하는 모듈을 추가하여 최종 결과물을 생성한다.
실험 결과, DIM-Listener는 기존 방법들에 비해 청자 행동의 사실성과 다양성 측면에서 월등한 성능을 보였다. 또한 DIM 프레임워크를 활용하여 화자 행동 생성 모델 DIM-Speaker도 개발하였으며, 이 또한 기존 방법들을 뛰어넘는 성능을 보였다.
Stats
화자와 청자의 행동이 서로 영향을 미치며 상호작용한다는 점을 고려하는 것이 중요하다.
기존 방법들은 화자 또는 청자의 행동만을 단독으로 모델링하여 한계가 있었다.
DIM 프레임워크는 화자와 청자의 행동을 통합적으로 모델링하여 상호작용의 맥락을 효과적으로 학습할 수 있다.
Quotes
"Human-human communication is like a delicate dance where listeners and speakers concurrently interact to maintain conversational dynamics."
"Hence, an effective model for generating listener nonverbal behaviors requires understanding the dyadic context and interaction."