Kernkonzepte
本稿では、従来のマスクベースのバーチャルトライオン手法が抱える、人物画像の情報損失や複雑なシーンへの対応不足といった問題点を、マスクフリーの擬似データを用いた学習手法によって解決するBooW-VTONを提案する。
Zusammenfassung
BooW-VTON: マスクフリーの擬似データトレーニングによる、より自然なバーチャルトライオンを実現
本稿では、複雑なポーズやオクルージョンを含む、より自然なシーンにおける高品質なバーチャルトライオンを実現する、マスクフリーの学習手法を用いたバーチャルトライオンモデル、BooW-VTONを提案する。
従来の画像ベースのバーチャルトライオン手法は、人物画像の試着領域をマスクで指定し、参照衣服画像を用いてマスク領域をインペイントする、マスクベースの手法が主流であった。しかし、この手法は以下のような問題点があった。
マスクによって人物画像の本来の情報が失われるため、生成画像の品質が低下する。
人物の姿勢や体型、アクセサリーなどの情報はマスクによって失われ、背景との整合性が損なわれる。
複雑なポーズやオクルージョンを含むシーンでは、マスクの精度が低下し、アーティファクトが発生しやすい。
これらの問題点を解決するために、本稿ではマスクフリーの学習手法を用いたバーチャルトライオンモデル、BooW-VTONを提案する。
マスクフリーの擬似データによる学習
BooW-VTONでは、マスクベースのモデルを用いて生成した高品質な擬似人物画像を用いて、マスクフリーのモデルを学習する。これにより、マスクを用いることなく、人物画像の情報を保持したまま衣服の試着を実現する。
自然なシーンに対応するデータ拡張
擬似データは、シンプルな背景の画像を用いて生成されるため、そのままでは複雑な背景の画像に適用することが難しい。そこで、本稿では、様々な背景や前景を合成した擬似データを生成することで、自然なシーンへの対応力を向上させている。
試着領域の学習を促進する損失関数
さらに、試着領域の学習を促進するために、試着領域以外の衣服の特徴量を抑制する損失関数を導入している。これにより、衣服のレンダリング精度が向上し、前景と背景の整合性が保たれる。