מושגי ליבה
本文介紹了一種名為 LLM Gesticulator 的新型框架,該框架利用大型語言模型 (LLM) 來合成與語音同步且可控的人體全身動作,並探討了其在提升動作自然度、韻律性以及可控性方面的優勢。
手勢是人類交流的基礎,它超越了語言障礙,豐富了思想、情感和意圖的表達。準確地描繪手勢對於在遊戲、電影製作、機器人和虛擬現實等各個領域創造身臨其境和互動的體驗至關重要。
基於規則的方法和數據驅動的方法是生成逼真語音同步手勢的兩種主要途徑。然而,基於規則的方法受限於預定義規則,生成的多樣性和自然度有限。數據驅動的方法雖然利用機器學習來學習從語音到手勢的複雜映射,但仍面臨著可擴展性和可編輯性方面的挑戰。