Core Concepts
視覚情報を活用して動的にセマンティックプロトタイプを更新することで、生成器が未知クラスの特徴を正確に合成できるようにする。
Abstract
本論文は、生成型ゼロショット学習の性能を向上させるための新しい手法「Visual-Augmented Dynamic Semantic prototype (VADS)」を提案している。
VADS は以下の2つのモジュールから構成される:
Visual-aware Domain Knowledge Learning module (VDKL):
視覚特徴から得られる局所的バイアスと全体的な事前情報を学習し、ノイズ入力として生成器に提供する。
これにより、生成器が見られたクラスだけでなく未知クラスの特徴も正確に合成できるようになる。
Vision-Oriented Semantic Updation module (VOSU):
予め定義されたセマンティックプロトタイプを、視覚特徴に基づいて動的に更新する。
これにより、各インスタンスの視覚-セマンティックの対応関係をより正確に捉えられるようになる。
VDKL で得られた視覚情報と、VOSUで更新されたセマンティックプロトタイプを組み合わせた「視覚拡張動的セマンティックプロトタイプ」を生成器の入力条件とすることで、未知クラスの特徴を高精度に合成できるようになる。
実験の結果、VADS は従来手法と比べて、SUN、CUB、AWA2の各データセットにおいて、従来手法を平均6.4%、5.9%、4.2%上回る性能を達成した。
Stats
生成器の入力条件として、ガウシアンノイズと予め定義されたセマンティックプロトタイプを使うと、特に未知クラスの特徴を正確に合成できない。
提案手法のVADSでは、視覚情報から得られる局所的バイアスと全体的な事前情報を組み合わせたノイズ入力と、視覚特徴に基づいて動的に更新されたセマンティックプロトタイプを使うことで、未知クラスの特徴を高精度に合成できる。
Quotes
"視覚情報を活用して動的にセマンティックプロトタイプを更新することで、生成器が未知クラスの特徴を正確に合成できるようになる。"
"提案手法のVADSは、従来手法と比べて、SUN、CUB、AWA2の各データセットにおいて、従来手法を平均6.4%、5.9%、4.2%上回る性能を達成した。"