核心概念
本文提出了一種名為 FACT 的新型人臉圖像生成方法,該方法通過解耦訓練策略,在保留原始模型生成能力的同時,實現了對輸入人臉身份信息的高保真度遷移。
摘要
本文介紹了一種名為 Face Adapter with deCoupled Training (FACT) 的新型人臉圖像生成方法,旨在解決現有基於適配器的人臉個性化方法中存在的兩個關鍵問題:身份特徵與其他屬性分離失敗,以及人臉生成訓練與整體生成任務分離失敗。
現有方法的缺陷
現有方法通常在測試階段需要額外的微調,導致計算成本高昂。此外,一些方法過度擬合整張圖像,而不是僅保留人臉的身份信息,導致生成的人臉逼真度和可控性降低。
FACT 方法的優勢
FACT 方法通過以下兩個方面解決了這些問題:
身份合併模塊(IMM):
採用基於 Transformer 的人臉識別模型 TransFace 來提取細粒度的身份特徵,實現更好的身份辨別和與 Stable Diffusion 架構的兼容性。
使用帶門控自注意力的序列人臉適配器(SFAGS)將身份信息合併到 Stable Diffusion 中,最大程度地減少人臉和文本之間的干擾。
身份保留訓練:
採用人臉適配增量正則化(FAIR)來約束 SFAGS 對人臉區域的影響,從而提高生成人臉的真實性。
使用帶有人臉條件丟棄和洗牌的課程學習策略來擴展人臉生成的可變性和可控性。
實驗結果
大量實驗表明,FACT 在文本到圖像生成和基於修復的人臉生成方面均表現出色,優於現有的基於適配器的人臉個性化方法。FACT 還可以與 Stable Diffusion 的常見微調模型(如 LoRA 和 ControlNet)無縫集成,而不會影響生成性能。
總結
FACT 方法通過解耦訓練策略,在保留原始模型生成能力的同時,實現了對輸入人臉身份信息的高保真度遷移,顯著提高了人臉圖像生成的質量和可控性。
統計資料
FACT 的 CLIP-T 分數僅次於 PhotoMaker。
與相應的基礎模型相比,FACT 的 CLIP-T 下降幅度最小。
在身份保留方面,FACT 擁有最高的 CLIP-I 和第二高的面部相似度。
在風格一致性和圖像質量方面,FACT 在 CLIP Style 和 FID 分數方面處於領先地位。
對於身份保留,FACT 擁有最高的 CLIP-I,並且僅次於 InstandID 的第二高的面部相似度。
FACT 在所有比較方法中,在表情、光照、姿勢和形狀方面的匹配能力都是最好的。
FACT 獲得了最好的 FID 分數。