Core Concepts
ビジョントランスフォーマーを用いて、視覚的特徴と意味的特徴の対応関係を明示的に学習することで、ゼロショット学習の性能を向上させる。
Abstract
本論文は、ゼロショット学習のためのビジョントランスフォーマーモデル「ZSLViT」を提案している。
ZSLViTは以下の2つの特性を考慮している:
意味的関連の高い視覚的表現を明示的に発見する
意味的関連の低い視覚的情報を除去する
具体的には、ZSLViTは以下の2つの操作を行う:
意味的埋め込みトークン学習(SET)
意味的強化と意味的ガイドトークン注意により、視覚的特徴と意味的特徴の対応関係を改善する
視覚的強化(ViE)
意味的関連の低い視覚的トークンを融合して除去し、意味的関連の高い視覚的特徴を強化する
これらの操作をエンコーダに統合することで、ZSLViTは段階的に意味的関連の高い視覚的表現を学習し、効果的な視覚-意味的相互作用を実現する。
実験結果から、ZSLViTは従来手法に比べて大幅な性能向上を達成していることが示された。
Stats
視覚的特徴と意味的特徴の対応関係を改善することで、ゼロショット学習の性能を大幅に向上させることができる。
意味的関連の低い視覚的情報を除去することで、視覚的特徴の質を高めることができる。
Quotes
"ビジョントランスフォーマーを用いて、視覚的特徴と意味的特徴の対応関係を明示的に学習することで、ゼロショット学習の性能を向上させる。"
"意味的関連の高い視覚的表現を発見し、意味的関連の低い視覚的情報を除去することで、効果的な視覚-意味的相互作用を実現する。"