Conceitos Básicos
ランニは、言語の表現力を補完するためにセマンティックパネルを導入することで、テキストから画像への生成の精度を向上させる。
Resumo
本論文では、ランニと呼ばれる新しいアプローチを提案している。ランニは、既存の拡散モデルを調整して、ペインティングや編集の指示に従うことができるようにする。
ランニのセマンティックパネルは、テキストと画像の間の生成ミドルウェアとして導入されている。このパネルは、言語モデルによってテキストの説明から抽出された視覚概念で構成される。そして、このパネルは拡散モデルの生成プロセスを補完する制御信号として機能する。
ランニは、各概念の詳細な説明を無視することなく、テキストの指示に従って生成することができる。さらに、手動または言語モデルベースの操作によってセマンティックパネルを調整することで、生成された画像の対話的な編集が可能になる。実験結果は、ランニが既存の手法よりも指示に従う精度が高いことを示している。また、言語モデルを活用したチャット形式の編集機能の可能性も示されている。
Estatísticas
「赤い帽子」
「雪の上で遊ぶパンダ」
「フットボールを動かす」
Citações
「キノコが高くなる」
「ウサギがキノコを食べる」
「小屋が現れる」