本文提出了 DiffTED,一種新的單張圖像驅動的 TED 風格演講視頻生成方法。DiffTED 利用擴散模型生成具有時間連貫性和多樣性的共語手勢,並將其應用於圖像轉換以產生最終的演講視頻。
與現有的方法不同,DiffTED 不依賴於視頻到視頻的轉換技術和傳統的生成網絡,而是直接從單張圖像和語音音頻生成演講視頻。此外,DiffTED 利用擴散模型生成 2D 薄板樣條(TPS)關鍵點序列,可以精確控制化身的動畫,確保手勢的時間連貫性和多樣性。這種創新方法利用無分類器引導,使手勢能夠自然地與輸入音頻流動,而不需依賴預訓練的分類器。
實驗結果表明,DiffTED 能夠生成具有時間連貫性和多樣性共語手勢的演講視頻。與基於 LSTM 和 CNN 的方法相比,DiffTED 在視頻質量、手勢多樣性和與語音同步性等方面都有顯著提升。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor