最近のテキストから画像への生成システムは、拡散モデルによって大きく進化しています。しかし、単一段階のテキストから画像への拡散モデルは、計算効率と画像詳細の改善という点で依然として課題があります。この問題に対処するために、CogView3が提案されました。CogView3は、リレーディフュージョンを実装した革新的なフレームワークであり、まず低解像度の画像を作成し、その後リレーベースの超解像度を適用することでタスクを実行します。この方法論は競争力のあるテキストから画像への出力をもたらすだけでなく、トレーニングおよび推論コストを大幅に削減します。CogView3はSDXL(現在の最先端オープンソーステキストから画像への拡散モデル)よりも人間評価で77.0%優れており、推論時間が1/2程度しかかかりません。また、CogView3の蒸留バリアントはSDXLよりも1/10程度しか利用しない推論時間で同等のパフォーマンスを達成します。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы