テキストベースの拡散モデルを用いて、生成画像のスタイルや構図、被写体の強調度合いを細かく制御する手法を提案する。
ディフュージョンモデルの安全性防御機構を回避し、意味的に関連性の高い有害な画像を生成することができる。
ディフュージョンモデルの中間特徴から学習した小規模なreadoutヘッドを使うことで、効率的に様々な制御を実現できる。
ディフュージョンベースのテキスト生成モデルのスケーリングプロパティを調査し、モデルサイズとデータセットサイズの両方を効率的に拡大することで、テキスト-画像アラインメントと画質を大幅に向上させることができる。
テキストエンコーダの微調整によって、テキスト指定の画像生成の品質と整合性を大幅に向上させることができる。