Core Concepts
LCMベースのルックアヘッド機構を導入し、画像空間の損失をエンコーダーの学習に適用することで、アイデンティティの保持とプロンプトの整合性を向上させる。
Abstract
本研究では、テキストからイメージへの個人化を行うエンコーダーベースのアプローチを改善する手法を提案している。
まず、LCMベースのルックアヘッド機構を導入し、画像空間の損失をエンコーダーの学習に適用することで、アイデンティティの保持を向上させている。LCMモデルを使うことで、ノイズの高い中間時間ステップの出力でも高品質なプレビューを生成でき、それを識別器ネットワークに入力することで、アイデンティティ保持の損失を計算できる。
次に、自己注意機構を拡張し、生成画像が入力画像の特徴を参照できるようにすることで、アイデンティティの保持をさらに向上させている。
また、一貫性のある合成データセットを使うことで、プロンプトとの整合性も改善している。SDXL-Turboを使ってある特定の人物を様々なスタイルで生成することで、エンコーダーがスタイルよりもコンテンツに注目するようになる。
これらの手法を組み合わせることで、アイデンティティ保持とプロンプト整合性のバランスが取れた高品質な個人化結果が得られる。
Stats
単一ステップのLCM出力は、最終的なDDPM予測と高い類似性を維持している。
個人化モデル(LoRA)でも同様の傾向が見られる。