Core Concepts
限られた参照画像から、ユーザーが指定した視覚的属性を正確に抽出し、新しい概念と組み合わせることができる。
Abstract
本研究では、ユーザー指定の視覚的外観パーソナライゼーション(U-VAP)と呼ばれる新しい設定を提案している。限られた参照画像から、ユーザーが指定した視覚的属性を正確に抽出し、新しい概念と組み合わせることが目的である。
まず、DreamBoothに基づいて初期のコンセプト認識モデルを学習する。しかし、参照画像が同じ視覚的属性を共有しているため、初期のパーソナライゼーションでは全ての視覚的外観が結合されてしまい、ユーザーの入力クエリが無視されてしまう。
そこで、分離自己増強戦略を提案する。高度な大規模言語モデルの機能を活用し、入力プロンプトに基づいて2つのセットの命令を生成する。1つは目的の属性と他の属性を列挙したもの、もう1つはその逆のものである。これらのプロンプトを使って初期のパーソナライゼーションモデルで増強サンプルを生成し、目的の属性と関連のない属性を結合するようにモデルを微調整する。
このようにして、U-VAPはユーザー指定の属性の抽出を促進し、他の新しい概念と柔軟に組み合わせることができる。
Stats
限られた参照画像から、ユーザーが指定した視覚的属性を正確に抽出することが困難である。
視覚的属性は画素空間で絡み合っており、明示的な外部監督がない。
Quotes
"ユーザー指定の視覚的外観パーソナライゼーション(U-VAP)と呼ばれる新しい設定を提案している。"
"分離自己増強戦略を提案する。高度な大規模言語モデルの機能を活用し、入力プロンプトに基づいて2つのセットの命令を生成する。"
"このようにして、U-VAPはユーザー指定の属性の抽出を促進し、他の新しい概念と柔軟に組み合わせることができる。"