toplogo
Sign In

少ない例で全てを検出する


Core Concepts
DE-ViTは、微調整不要の新しいアーキテクチャに基づく少数ショット物体検出手法です。
Abstract
DE-ViTは、ViT特徴を用いた新しい領域伝播ネットワークと空間積分層を導入し、基本クラスと新規クラスの精度差を縮小します。COCOやPascal VOC、LVISのベンチマークで最先端の結果を達成しています。DE-ViTは、10ショットで15 mAP、30ショットで7.2 mAP、1ショットで2.8 AP50のSoTAを超えました。さらに、LVISでは20 box APrでSoTAを上回りました。提案手法は高速な推論時間と優れた精度を実現しています。
Stats
COCOにおけるDE-ViT:10ショットで15 mAP、30ショットで7.2 mAPのSoTA超越 LVISにおけるDE-ViT:20 box APrでSoTA超越
Quotes
"Few-shot object detection provides a promising paradigm for generic object detectors by representing novel categories with a set of support images." "We propose a novel region-propagation-based localization architecture." "Our method DE-ViT establishes new state-of-the-art results on all benchmarks."

Key Insights Distilled From

by Xinyu Zhang,... at arxiv.org 03-08-2024

https://arxiv.org/pdf/2309.12969.pdf
Detect Everything with Few Examples

Deeper Inquiries

他のタスクへの応用可能性や推論効率向上策はあるか?

提案手法であるDE-ViTの特徴である領域伝播ネットワークと学習可能な空間積分層は、少数ショット物体検出に限らず、セグメンテーション結果をサポートするために直接拡張することができます。これにより、オブジェクト検出タスクを通じてセグメンテーション課題にも適用可能です。また、特徴部分空間投影を設計していくことで、一般的なオブジェクト検出アプローチからセグメンテーション結果まで幅広く対応する汎用的なビルディングブロックとして利用される可能性があります。 さらに、各クラスごとの特徴量を作成し推論コストが発生する問題点も指摘されました。この問題点は解消すべく、クラスレベルの注意機構を設計することで推論コストを削減する方法が考えられます。
0