Core Concepts
DE-ViTは、微調整不要の新しいアーキテクチャに基づく少数ショット物体検出手法です。
Abstract
DE-ViTは、ViT特徴を用いた新しい領域伝播ネットワークと空間積分層を導入し、基本クラスと新規クラスの精度差を縮小します。COCOやPascal VOC、LVISのベンチマークで最先端の結果を達成しています。DE-ViTは、10ショットで15 mAP、30ショットで7.2 mAP、1ショットで2.8 AP50のSoTAを超えました。さらに、LVISでは20 box APrでSoTAを上回りました。提案手法は高速な推論時間と優れた精度を実現しています。
Stats
COCOにおけるDE-ViT:10ショットで15 mAP、30ショットで7.2 mAPのSoTA超越
LVISにおけるDE-ViT:20 box APrでSoTA超越
Quotes
"Few-shot object detection provides a promising paradigm for generic object detectors by representing novel categories with a set of support images."
"We propose a novel region-propagation-based localization architecture."
"Our method DE-ViT establishes new state-of-the-art results on all benchmarks."