本研究では、拡散モデルの画像生成の一貫性を定量化するための解釈可能な指標の必要性を指摘している。提案するセマンティック一貫性スコアは、CLIP視覚エンベディングの平均ペアワイズコサイン類似度を用いて計算される。
実験では、オープンソースの拡散モデルであるSDXLとPixArt-αを比較した。その結果、PixArt-αの方がSDXLよりも一貫性が高いことが示された。また、SDXLにLoRAファインチューニングを行うことで、一貫性が有意に向上することも明らかになった。
この一貫性スコアは、特定のタスクに適したモデルアーキテクチャの評価や、LoRAなどのファインチューニング手法の評価に役立つ。さらに、プロンプトエンジニアリングの定量化や、他のモダリティ(テキスト、音声)の生成の一貫性評価にも応用できる可能性がある。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문