核心概念
UIFormerは、TransformerベースのMask DINOを拡張し、ベースクラスと新規クラスの両方で高いパフォーマンスを維持しながら、限られた新規オブジェクトクラスの例のみを使用して、増分Few-Shotオブジェクト検出(iFSOD)とインスタンスセグメンテーション(iFSIS)の両方のタスクを効果的に学習できる、統合されたフレームワークを提供します。
要約
UIFormer: 増分Few-Shotオブジェクト検出とインスタンスセグメンテーションのための統合Transformerベースフレームワーク
この論文は、Transformerアーキテクチャを用いた、増分Few-Shotオブジェクト検出(iFSOD)とインスタンスセグメンテーション(iFSIS)のための新しいフレームワークであるUIFormerを提案しています。
本研究の目的は、ベースクラスや古いクラスの学習データにアクセスすることなく、ベースクラスと新規クラスの両方で高いパフォーマンスを維持しながら、新規オブジェクトクラスの限られた例のみが利用可能な状況に対して最適なソリューションを作成することです。
UIFormerは、Mask-DINOを2段階の増分学習フレームワークに拡張したものです。
ステージ1:ベースモデルの学習
ベースデータセットを用いてモデルの最適化に焦点を当てます。
ベースクラスからの豊富なセマンティクスの学習を強化し、過剰適合を軽減するために、2段階のベースモデル学習戦略を採用しています。
ベースモデルの事前学習:オブジェクト検出とインスタンスセグメンテーションの両方のタスクでモデル全体を学習します。
ベースモデルのファインチューニング:アテンション駆動型擬似ラベルベースの自己教師あり学習戦略を通じてベースモデルをファインチューニングします。
ステージ2:新規クラスのファインチューニング
新規クラスのデータを用いてモデルをファインチューニングします。
新規クラスのファインチューニング中に、ベースクラスの知識損失に対処するために、知識蒸留を導入しています。
エンコーダには、前景と背景を区別することにのみ焦点を当てた、新しいクラスにとらわれない前景予測器を提案しています。
デコーダには、正確な意味的識別のためにコサイン類似度分類器を採用しています。