核心概念
スケッチの抽象的な意味を捉えるための新しい2段階の階層的トレーニングアプローチを提案する。
要約
本研究は、スケッチの抽象的な意味を捉えるための新しい2段階の階層的トレーニングアプローチを提案している。
I. 全体的なシーンスケッチ理解
スケッチを入力として、ホリスティックなシーンエンコーディングを学習する。
CLIP事前学習モデルのビジュアルエンコーダを使用し、テキストキャプションとの三角損失を用いて学習する。
従来のキー-クエリ自己注意に加え、値-値自己注意を導入し、スケッチの意味的特徴を強化する。
II. 個別カテゴリの理解
個別カテゴリの理解を目的とした2段階目のトレーニングを行う。
テキストプロンプトとの相互注意を導入し、カテゴリ特徴の学習を強化する。
カテゴリ毎の類似度マップを生成し、しきい値処理によりピクセル単位の分割を行う。
提案手法は、ゼロショットCLIPベースラインに比べて37ポイントも高いピクセル精度を達成し、85.5%の性能を示した。また、完全教師あり手法よりも大幅に優れた性能を発揮した。さらに、人間の理解との比較分析から、今後の改善点も明らかにした。
統計
提案手法は、ゼロショットCLIPベースラインに比べて37ポイントも高いピクセル精度を達成した。
提案手法は、完全教師あり手法よりも大幅に優れた性能を発揮した。
引用
"スケッチの抽象的な意味を捉えるための新しい2段階の階層的トレーニングアプローチを提案する。"
"提案手法は、ゼロショットCLIPベースラインに比べて37ポイントも高いピクセル精度を達成した。"
"提案手法は、完全教師あり手法よりも大幅に優れた性能を発揮した。"