本論文では、テキストからイメージへの拡散モデルに新しいタスクを追加する際の課題に取り組んでいる。通常、新しいタスクを追加するには、全てのモーダルにわたる対応するデータセットを用いて、モデル全体を再学習する必要がある。しかし、この方法では計算コストが高く、既存の知識を失う可能性がある。
そこで本研究では、MaxFusionと呼ばれる新しい特徴量融合手法を提案している。MaxFusionは、中間層の特徴量の分散に基づいて、異なるタスクモデルの特徴量を効果的に融合する。これにより、既存のモデルに新しいタスクを追加することができ、再学習を行うことなく、多様なモーダルを同時に生成することが可能となる。
具体的には、まず異なるタスクモデルの中間層出力が同じ空間位置に追加されることに着目し、それらの特徴量が整列していることを示す。次に、特徴量の分散が、その特徴量の重要性を表すことを発見した。これに基づき、MaxFusionでは、空間位置ごとに最も重要な特徴量を選択して融合する。
提案手法は、既存のControlNetやT2I-Adapterなどのモデルに簡単に統合できる。実験の結果、提案手法は、単一のモデルで複数のモーダルを同時に生成することができ、既存手法と比べて優れた性能を示すことが分かった。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Nithin Gopal... pada arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09977.pdfPertanyaan yang Lebih Dalam