핵심 개념
UniHumanは、人物の姿勢変更、衣装変更、テキストに基づく編集など、複数の人物画像編集タスクを統一的に扱うモデルである。人物の視覚的特徴を活用し、姿勢に合わせたテクスチャ変換モジュールを導入することで、多様な実世界データに適応できる高品質な生成を実現する。
초록
本論文では、人物画像の姿勢変更、衣装変更、テキストに基づく編集といった複数のタスクを統一的に扱うモデル「UniHuman」を提案している。
まず、人物の部位ごとの特徴を学習する部位エンコーダと、姿勢に合わせてテクスチャを変換する姿勢ワーピングモジュールを導入する。これにより、タスク間の相互補完を図り、高品質な生成を実現する。
さらに、既存のデータセットでは限定的な人物画像しか含まれていないため、400K件の高品質な人物画像-テキストペアからなる新規データセット「LH-400K」を構築する。これにより、多様な背景、年齢層、体型の人物画像を学習し、実世界への適応性を高めている。
実験の結果、UniHumanは既存の個別タスク向けモデルを大幅に上回る性能を示し、ユーザ評価でも77%の支持を得ている。特に、既存モデルでは苦手としていた実世界の多様なデータに対しても高い生成品質を維持できることが確認された。
통계
人物画像の姿勢変更では、UniHumanのFID値が既存手法の半分以下に改善された。
衣装変更タスクでは、UniHumanのFID値が127.9と大幅に低下し、既存手法を上回る性能を示した。
ユーザ評価では、UniHumanが77%の支持を得た。既存手法は23%程度の支持にとどまった。
인용구
"UniHumanは、人物の姿勢変更、衣装変更、テキストに基づく編集など、複数の人物画像編集タスクを統一的に扱うモデルである。"
"人物の視覚的特徴を活用し、姿勢に合わせたテクスチャ変換モジュールを導入することで、多様な実世界データに適応できる高品質な生成を実現する。"
"既存のデータセットでは限定的な人物画像しか含まれていないため、400K件の高品質な人物画像-テキストペアからなる新規データセット「LH-400K」を構築する。"