本論文では、人物画像の姿勢変更、衣装変更、テキストに基づく編集といった複数のタスクを統一的に扱うモデル「UniHuman」を提案している。
まず、人物の部位ごとの特徴を学習する部位エンコーダと、姿勢に合わせてテクスチャを変換する姿勢ワーピングモジュールを導入する。これにより、タスク間の相互補完を図り、高品質な生成を実現する。
さらに、既存のデータセットでは限定的な人物画像しか含まれていないため、400K件の高品質な人物画像-テキストペアからなる新規データセット「LH-400K」を構築する。これにより、多様な背景、年齢層、体型の人物画像を学習し、実世界への適応性を高めている。
実験の結果、UniHumanは既存の個別タスク向けモデルを大幅に上回る性能を示し、ユーザ評価でも77%の支持を得ている。特に、既存モデルでは苦手としていた実世界の多様なデータに対しても高い生成品質を維持できることが確認された。
To Another Language
from source content
arxiv.org
Djupare frågor