ControlNet++は、事前学習された識別報酬モデルを使用して、生成された画像と入力条件の一貫性を明示的に最適化することで、制御可能な画像生成を大幅に改善する。
Stable Diffusionモデルに訓練を施すことなく、潜在空間にウォーターマークを埋め込むことで、高品質な画像生成と追跡可能性を両立させる。
MuLAn は、単一のRGB画像を背景と個別のインスタンスを表す透明なRGBA層に分解するデータセットである。これにより、精密な空間制御と局所的な編集が可能になり、テキスト主導の画像生成技術の発展を促進する。
CLoRAは、テキストプロンプトに基づいて複数のLoRAモデルを統合し、一つの画像を生成する新しい手法である。従来の手法では、LoRAモデルの注意マップが重複したり、属性が正しく結合されないといった問題があったが、CLoRAはこれらの問題を解決し、各LoRAモデルの特徴を正確に反映した画像を生成することができる。