핵심 개념
ReGenNet은 주어진 인간 행동 시퀀스를 바탕으로 즉각적이고 현실적인 인간 반응을 생성하는 모델이다.
초록
이 논문은 인간-인간 상호작용의 비대칭적, 동적, 동기화, 세부적인 특성을 종합적으로 분석하고, 이를 바탕으로 첫 번째 다중 설정 인간 행동-반응 합성 벤치마크를 제안한다.
구체적으로:
- NTU120, InterHuman, Chi3D 데이터셋에 대해 행위자-반응자 순서를 주석화했다.
- 확산 기반 생성 모델인 ReGenNet을 제안했다. 이는 Transformer 디코더 아키텍처와 명시적인 거리 기반 상호작용 손실 함수를 사용하여 행위자의 미래 상태를 모르는 상황에서도 즉각적인 반응을 생성할 수 있다.
- 정량적 및 정성적 실험 결과, ReGenNet은 기존 방법들에 비해 더 즉각적이고 현실적인 인간 반응을 생성할 수 있으며, 보이지 않은 행위자 동작과 시점 변화에 일반화될 수 있다.
통계
행위자의 미래 상태를 모르는 상황에서도 즉각적인 반응을 생성할 수 있다.
보이지 않은 행위자 동작과 시점 변화에 일반화될 수 있다.
인용구
"Humans constantly interact with their surrounding envi-ronments. Current human-centric generative models mainly focus on synthesizing humans plausibly interacting with static scenes and objects, while the dynamic human action-reaction synthesis for ubiquitous causal human-human interactions is less explored."
"Modeling human-human interactions is a challenging task with the following features: 1) Asymmetric, i.e., the actor and reactor play asymmetric roles during a causal interaction, where one person acts, and the other reacts [78]; 2) Dynamic, i.e., during the interaction period, the two people constantly wave their body parts, move close/away, and change relative orientations, spatially and temporally; 3) Synchronous, i.e., typically, one person responds instantly with others such as an immediate evasion when someone throws a punch, thus the online generation is required; 4) Detailed, i.e., the interaction between humans involves not only coarse body movements together with relative position changes but also local hand gestures and even facial expressions."