ImPosterは、単一の被写体画像と駆動画像から、被写体が駆動アクションを実行する画像を生成する新しいアルゴリズムです。ステップワイズのテキストプロンプティングと周波数ガイダンスを組み合わせることで、被写体の特徴を維持しつつ、駆動アクションを効果的に転写することができます。
拡散モデルを用いた高品質な多主体画像生成のためには、初期段階でのレイアウト最適化が重要である。本手法では、注意マップの空間的分離と再配置を通じて、生成画像のレイアウトを改善する。
提案手法GLoD(Global-Local Diffusion)は、事前学習済みの拡散モデルを用いて、物体の相互作用(グローバルな文脈)と物体の詳細(ローカルな特徴)を同時に制御することができる。
リソース制限ネットワークにおいて、画像の意味情報のみを送信し、受信側で画像生成モデルを用いて元の画像を再構築する画像生成型セマンティック通信手法を提案する。提案手法では、送信側が元の画像から多様な意味情報(説明文、セグメンテーション、色情報)を抽出し、受信側がそれらの情報を用いて複数の画像を生成し、意味的類似性が最も高い画像を出力する。
ガイダンスは高ノイズ領域では有害、低ノイズ領域では不要であり、中間のノイズ領域でのみ有効である。そのため、ガイダンスを最適な区間に制限することで、サンプル品質と分布品質を大幅に改善できる。
生成画像の自然さを評価するための新しい指標「Anomaly Score」を提案する。この指標は、生成画像の表現空間の複雑さ(complexity)と脆弱性(vulnerability)を捉えることで、人間の知覚に合致した評価を行う。
提案手法のエネルギー補正VAEは、VAEの生成方向を明示的に最適化することで、高品質な生成サンプルを生成できる。
YaARTは、強化学習を用いて人間の好みに合わせて調整された、高品質なテキスト条件付き画像生成モデルである。
本論文は、拡散モデルの重みを1ビットまで圧縮するための新しい正確な量子化対応学習アプローチ「BinaryDM」を提案する。BinaryDMは、学習可能な多基底2値化器(LMB)と低ランク表現模倣(LRM)の2つの技術を導入することで、2値化された拡散モデルの表現能力と最適化を大幅に改善する。
マスクプロンプトを導入することで、前景と背景の関係をより良くモデル化し、高品質な画像を生成できる。