本文提出了Storynizor,這是一個能夠生成具有高度人物一致性、有效前景-背景分離和多樣姿態變化的連續故事圖像的模型。Storynizor的核心創新在於兩個關鍵模塊:ID同步器和ID注入器。
ID同步器使用自動掩碼自注意力模塊和跨幀圖像的掩碼感知損失來提高人物生成的一致性,生動地表現他們的姿勢和背景。ID注入器利用打亂參考策略(SRS)將ID特徵集成到特定位置,增強基於ID的一致人物生成。
此外,為了促進Storynizor的培訓,我們整理了一個名為StoryDB的新數據集,包含10萬張圖像,涵蓋了單一和多角色集合,環境、佈局和姿勢各異。
實驗結果表明,與其他專門針對人物的方法相比,Storynizor在人物一致性、靈活姿勢和生動背景方面表現優異。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yuhang Ma, W... at arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19624.pdfDeeper Inquiries