UniFL は、知覚フィードバック学習、分離フィードバック学習、敵対的フィードバック学習の3つの主要コンポーネントを統合し、テキスト-画像生成モデルの画質向上、審美性向上、推論速度の高速化を包括的に実現する。
テキストから画像への微調整において、報酬モデルの信頼度を考慮することで、過剰最適化を抑制できる。
ユーザーのプロンプト改善履歴データを活用し、ユーザー能力を考慮したプロンプト改善モデルを開発することで、テキスト-画像生成システムの使いやすさを大幅に向上させる。
近接報酬差分予測(PRDP)は、拡散モデルの報酬最大化を安定的に行うことができる新しい手法である。従来の強化学習ベースの手法とは異なり、PRDPは監督学習の回帰問題に置き換えることで、大規模なプロンプトデータセットでの学習を可能にしている。
拡散モデルの内部表現に関連する不適切な概念を発見し、それらを操作することで、公平性、安全性、責任あるテキストガイダンスを持つ画像生成を実現する。
DreamSalonは、高周波情報を利用した詳細な操作段階と、ランダムノイズを用いた品質向上段階を組み合わせることで、特定の特徴を精密に編集しつつ、被写体の同一性とコンテキストを維持する。さらに、ソースとターゲットのテキストプロンプトの意味的な混合により、より正確な編集を実現する。
単一の入力画像から複数の新しい概念を学習し、それらを組み合わせたり個別に生成することで、高品質かつ個人化された画像を生成する。
VersaT2Iは、美的な魅力、テキストとの整合性、幾何学的正確性、低レベルの品質など、画像の質の様々な側面を評価するモデルを組み合わせることで、テキスト-画像生成モデルの性能を向上させる。