Core Concepts
本研究では、ニューラルネットワークの重みを動的に操作することで、画像生成プロセスを制御する新しい手法を提案する。
Abstract
本研究では、条件対応型ニューラルネットワーク(CAN)と呼ばれる新しい手法を提案している。CANは、入力条件(クラスラベルや時間ステップなど)に応じて、畳み込み層やlinear層の重みを動的に生成することで、画像生成プロセスを制御する。
まず、CANの実用的な設計について検討し、すべての層を条件対応にするのではなく、一部の層のみを条件対応にすることが効率性と性能の観点から有効であることを示した。また、重みを動的に生成する方式が、複数の基底重みを適応的に組み合わせる手法よりも効果的であることを明らかにした。
次に、CANをDiTやUViTといった最新の拡散変換モデルに適用し、大幅な性能向上を実現した。特に、CANとEfficientViTを組み合わせたCaTモデルは、DiT-XL/2と同等の性能を示しつつ、1/52のMACs(1ステップあたりの計算量)で実現できることを示した。これにより、拡散モデルを端末デバイスで実用化する道を開いた。
さらに、CANは単独でも効果的な条件制御手法として機能し、従来の条件制御手法を大きく上回る性能を発揮することを確認した。
Stats
クラスラベル情報は時間ステップ情報よりも条件重み生成プロセスにとって重要である。
CANを適用することで、DiT-XL/2と同等の性能を1/52のMACs(1ステップあたりの計算量)で実現できる。
Quotes
本研究では、ニューラルネットワークの重みを動的に操作することで、画像生成プロセスを制御する新しい手法を提案する。
CANは単独でも効果的な条件制御手法として機能し、従来の条件制御手法を大きく上回る性能を発揮する。