核心概念
Stable Diffusionモデルのプロンプトを最適化することで、セマンティックマッチングの精度を大幅に向上させることができる。
要約
本論文では、Stable Diffusionモデルをセマンティックマッチングタスクに適用する方法を提案している。
まず、単一の汎用プロンプトを学習する手法(SD4Match-Single)を示す。これにより、既存のSD基盤のアプローチよりも大幅に精度が向上した。
さらに、オブジェクトカテゴリごとに個別のプロンプトを学習する手法(SD4Match-Class)と、入力画像ペアの局所特徴に基づいて条件付きプロンプトを生成する手法(SD4Match-CPM)を提案する。
これらの手法により、PF-Pascal、PF-Willow、SPair-71kデータセットにおいて、従来手法を大きく上回る精度を達成した。特に、SPair-71kデータセットでは、従来最高精度を12ポイント以上も上回る結果を得た。
提案手法の詳細は以下の通り:
- SD4Match-Single: 単一の汎用プロンプトを学習し、Stable Diffusionモデルの性能を大幅に向上させる。
- SD4Match-Class: オブジェクトカテゴリごとに個別のプロンプトを学習し、事前知識を活用する。
- SD4Match-CPM: 入力画像ペアの局所特徴に基づいて条件付きプロンプトを生成し、マッチング精度をさらに向上させる。
統計
提案手法SD4Match-Singleは、既存手法DIFTと比べて37.2%の精度向上を達成した。
SD4Match-ClassはSD4Match-Singleより2.9ポイントの精度向上を示した。
SD4Match-CPMはSD4Match-Classと同等の精度を達成した。
引用
"Stable Diffusion (SD)は、高品質な画像生成だけでなく、視覚的認識タスクにも適用可能であることが明らかになっている。"
"プロンプトの最適化は、画像生成タスクで広く利用されているが、視覚的認識タスクへの適用は未探索であった。"
"提案手法SD4Matchは、SPair-71kデータセットにおいて従来最高精度を12ポイント以上も上回る結果を達成した。"