核心概念
本文提出了一種名為 FloAtControlNet 的方法,該方法利用穩定擴散模型和控制網路技術,從文字提示和法線貼圖序列生成逼真的服裝動畫。
論文資訊
Mishra, S. S., Kulkarni, K., Ceylan, D., & Srinivasan, B. V. (2024). FLOAT: FLOW WARPING OF SELF-ATTENTION FOR CLOTHING ANIMATION GENERATION. arXiv preprint arXiv:2411.15028.
研究目標
本研究旨在開發一種自動化方法,利用文字提示和法線貼圖序列生成逼真的服裝動畫,特別是針對連衣裙、裙子和褲子等服裝。
方法
本研究提出了一種名為 FloAtControlNet 的方法,該方法基於穩定擴散模型和控制網路技術。該方法首先利用預先訓練好的 RAFT 模型計算法線貼圖序列的光流。然後,利用法線貼圖條件控制網路生成單個 RGB 影像,並採用自注意力特徵注入技術確保時間一致性。最後,利用計算出的光流對自注意力圖進行操作,以抑制背景偽影並使服裝動畫更加自然。
主要發現
FloAtControlNet 方法能夠生成高品質的服裝動畫,即使對於條紋和扎染印花等高頻紋理服裝也是如此。
與其他基於擴散模型的基準方法相比,FloAtControlNet 方法能夠減輕背景閃爍現象。
在使用輸入法線貼圖序列和從輸出 RGB 影格獲得的法線貼圖序列計算的 RMSE 和 PSNR 方面,FloAtControlNet 方法優於所有基準方法。
主要結論
FloAtControlNet 方法提供了一種基於文字提示和法線貼圖序列生成逼真服裝動畫的有效方法。該方法通過操縱自注意力圖,成功地改善了動畫品質並抑制了背景運動。
意義
本研究為服裝動畫生成領域做出了貢獻,提供了一種自動化且有效的解決方案,可用於各種應用,例如社交媒體、數位廣告和線上購物網站。
局限性和未來研究方向
本研究的一個局限性是它需要高品質的法線貼圖序列才能進行條件化和光流計算。
未來研究方向包括探索從單個影像估計法線貼圖序列的方法,以及進一步改善背景抑制技術。
統計資料
FloAtControlNet 在 N-RMSE、N-PSNR、F-RMSE 和 F-PSNR 等指標上優於所有基準方法。
41.3% 的使用者認為 FloAtControlNet 生成的動畫品質最佳。