Core Concepts
提案手法 PEVA-Net は、CLIP の言語プロンプトを活用してビュー画像の集約を強化することで、ゼロショットおよび少数ショットの 3D 形状認識を同時に実現する。さらに、ゼロショットの記述子を少数ショットの学習に活用する自己蒸留スキームを提案し、少数ショット学習の効率を大幅に向上させる。
Abstract
本論文は、CLIP を活用して 3D 形状の多視点画像を用いたゼロショットおよび少数ショット 3D 形状認識を同時に実現する PEVA-Net を提案している。
ゼロショットの場合、PEVA-Net は、候補カテゴリからビルドアップしたプロンプトを活用して、ビュー画像の集約プロセスを強化する。これにより、ビューごとの識別性を考慮した効果的な 3D 形状の記述子を生成する。
少数ショットの場合、PEVA-Net はまず、ビュー画像の視覚特徴をトランスフォーマーエンコーダで集約する。その際、主分類損失に加えて、ゼロショットの記述子を少数ショットの記述子の学習ガイダンスとする特徴蒸留損失を導入する。これにより、少数ショット学習の効率を大幅に向上させる。
実験では、ModelNet40、ModelNet10、ShapeNetCore 55 データセットにおいて、提案手法が最先端のゼロショットおよび少数ショット 3D 形状認識性能を達成することを示している。
Stats
ゼロショットの ModelNet40 認識精度は84.48%
ゼロショットの ModelNet10 認識精度は93.50%
ゼロショットの ShapeNetCore 55 認識精度は74.65%
16ショットの ModelNet40 認識精度は90.64%
Quotes
"大規模なビジョン言語モデルは、ゼロショットおよび少数ショットのシナリオでの2Dビジュアル認識のパフォーマンスを印象的に向上させてきた。"
"ゼロショットと少数ショットの両方のタスクは関連しており、同時に考慮することができる。"
"ゼロショットの記述子を活用して少数ショットの記述子の学習を指導することで、少数ショット学習の効果を大幅に向上させることができる。"