核心概念
拡散モデルの画像生成の一貫性を定量化するためのセマンティックアプローチを提案し、状態の最先端のオープンソースモデルであるSDXLとPixArt-αの比較を行った。また、LoRAファインチューニングがSDXLの一貫性を向上させることを示した。
要約
本研究では、拡散モデルの画像生成の一貫性を定量化するための解釈可能な指標の必要性を指摘している。提案するセマンティック一貫性スコアは、CLIP視覚エンベディングの平均ペアワイズコサイン類似度を用いて計算される。
実験では、オープンソースの拡散モデルであるSDXLとPixArt-αを比較した。その結果、PixArt-αの方がSDXLよりも一貫性が高いことが示された。また、SDXLにLoRAファインチューニングを行うことで、一貫性が有意に向上することも明らかになった。
この一貫性スコアは、特定のタスクに適したモデルアーキテクチャの評価や、LoRAなどのファインチューニング手法の評価に役立つ。さらに、プロンプトエンジニアリングの定量化や、他のモダリティ(テキスト、音声)の生成の一貫性評価にも応用できる可能性がある。
統計
SDXLとPixArt-αの一貫性スコアの平均と中央値:
SDXLの平均: 88.9±7.1、中央値: 91.3
PixArt-αの平均: 93.4±4.9、中央値: 95.1
SDXLとLoRAファインチューニング版SDXLの一貫性スコアの平均と中央値:
SDXLの平均: 90.1±5.4、中央値: 91.7
LoRAファインチューニング版SDXLの平均: 92.9±5.0、中央値: 94.2