本論文は、ユーザーの好みに合わせた高品質な顔画像を生成するための新しいフレームワークを提案している。このフレームワークは、背景、個人の特徴、表情の3つの要素を同時に制御することができる。
背景については、事前に学習したテキスト生成モデルを使って背景画像を生成し、顔領域をマスクすることで、顔と背景の整合性を保つ。
個人の特徴については、複数の顔認識モデルを組み合わせた複合的な特徴表現を使うことで、個人の特徴を正確に制御できるようにしている。
表情については、細かな感情表現を表現できる135クラスの感情辞書を使い、感情特徴量を抽出して表情を制御する。
これらの要素を同時に制御するために、新しい拡散モデルを提案している。この拡散モデルは、顔の入れ替えと表情変換を同時に行うことができ、個人の特徴と表情の分離と制御を実現している。
さらに、拡散モデルの訓練時に背景情報を明示的に与えることで、顔の姿勢や照明の推定精度が向上し、生成画像の品質が高まる。
また、中間サンプリングの改善により、訓練時の個人特徴と表情の制御精度が向上している。
実験の結果、提案手法は細かな表情制御と高品質な顔生成を実現しており、従来手法と比べて優れた性能を示している。
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Renshuai Liu... : arxiv.org 04-09-2024
https://arxiv.org/pdf/2401.01207.pdfDaha Derin Sorular