本論文では、ランニと呼ばれる新しいアプローチを提案している。ランニは、既存の拡散モデルを調整して、ペインティングや編集の指示に従うことができるようにする。
ランニのセマンティックパネルは、テキストと画像の間の生成ミドルウェアとして導入されている。このパネルは、言語モデルによってテキストの説明から抽出された視覚概念で構成される。そして、このパネルは拡散モデルの生成プロセスを補完する制御信号として機能する。
ランニは、各概念の詳細な説明を無視することなく、テキストの指示に従って生成することができる。さらに、手動または言語モデルベースの操作によってセマンティックパネルを調整することで、生成された画像の対話的な編集が可能になる。実験結果は、ランニが既存の手法よりも指示に従う精度が高いことを示している。また、言語モデルを活用したチャット形式の編集機能の可能性も示されている。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Yutong Feng,... às arxiv.org 04-10-2024
https://arxiv.org/pdf/2311.17002.pdfPerguntas Mais Profundas