แนวคิดหลัก
Wir präsentieren einen innovativen Ansatz zur gleichzeitigen Generierung holistischer 3D-Bewegungen für Sprecher und Zuhörer in Kommunikationssituationen, der die gegenseitige Beeinflussung zwischen den Beteiligten berücksichtigt.
บทคัดย่อ
In dieser Arbeit stellen wir eine neuartige Aufgabe vor, die darauf abzielt, 3D-Bewegungen für sowohl Sprecher als auch Zuhörer in Kommunikationssituationen zu generieren. Unser Ansatz umfasst zwei Hauptkomponenten:
Datensatzerstellung: Wir führen den HoCo-Datensatz ein, der hochauflösende Videos von Kommunikationssituationen mit begleitenden Audioaufnahmen, Transkripten und SMPL-X-Annotationen für Sprecher und Zuhörer enthält.
Modelldesign: Wir entwickeln eine neuartige Methode, die aus zwei Teilen besteht:
a) Faktorisierung der Audiomerkmale, um realistischere und koordiniertere Bewegungen zu erzeugen.
b) Ein ketten-artiges, autoreggressives Transformermodell, das die gegenseitige Beeinflussung zwischen Sprecher und Zuhörer in Echtzeit berücksichtigt.
Unsere Methode erzielt den aktuellen Stand der Technik auf zwei Benchmark-Datensätzen und generiert koordinierte und vielfältige Bewegungen für Sprecher und Zuhörer gleichzeitig.
สถิติ
Die Audioenergie, der Tonhöhenverlauf und der Stil des Audios sind wichtige Faktoren für die Erzeugung von Körperbewegungen und Gesichtsausdrücken.
Die semantischen Informationen des begleitenden Texts tragen ebenfalls zur Generierung realistischer Bewegungen bei.
คำพูด
"Unsere Methode berücksichtigt die Echtzeitinteraktion zwischen Sprecher und Zuhörer und kann gleichzeitig die Bewegungen für beide Teilnehmer generieren."
"Unser Ansatz erzielt den aktuellen Stand der Technik auf zwei Benchmark-Datensätzen und generiert koordinierte und vielfältige Bewegungen für Sprecher und Zuhörer."