本論文では、テキストから画像への拡散モデルを用いた視覚的認識のための新しい手法を提案する。提案手法は、暗黙的言語ガイダンスブランチと明示的言語ガイダンスブランチの2つのブランチから構成される。
暗黙的ブランチでは、凍結されたCLIPイメージエンコーダを用いて直接的に暗黙的なテキストエンベディングを生成し、拡散モデルの特徴抽出に活用する。一方、明示的ブランチでは、対応する画像の正解ラベルをテキストプロンプトとして用いて、拡散モデルの特徴抽出を行う。
これら2つのブランチは、モデルパラメータを共有しながら共同で学習される。推論時には、明示的ブランチを除去し、暗黙的ブランチのみを用いる。
提案手法は、セマンティックセグメンテーションおよび深度推定の2つの視覚的認識タスクで評価され、既存手法を上回る性能を示した。セマンティックセグメンテーションでは、ADE20KデータセットのmIoUssスコアが55.9%と、ベースラインよりも2.2%の改善を達成した。深度推定では、NYUv2データセットのRMSEが0.228と、ベースラインよりも10.2%の相対的な改善を示した。
翻譯成其他語言
從原文內容
arxiv.org
深入探究