本論文では、検出トランスフォーマーの知識蒸留に関する新しい手法を提案している。
まず、従来の手法では正解クエリのみを使用していたが、負のクエリの中にも有用な情報が含まれていることを示した。そこで、クエリをGIoUに基づいて分類し、正解クエリと高GIoUの負のクエリを選択する「Group Query Selection」手法を提案した。
次に、提案手法「Query Selection Knowledge Distillation (QSKD)」を紹介した。QSKDは以下の2つの主要コンポーネントから成る:
Attention-Guided Feature Distillation (AGFD): 選択したクエリの注意マップを使ってエンコーダ特徴量の蒸留を行う。さらに、エンコーダ層数の差異を補うためにアダプタ層を導入した。
Local Alignment Prediction Distillation (LAPD): 教師と学生の予測結果を局所的に対応付けることで、効率的な予測蒸留を実現した。
MS-COCOデータセットでの実験の結果、提案手法はさまざまな検出トランスフォーマーアーキテクチャで大幅な精度向上を達成した。具体的には、Conditional DETR ResNet-18で35.8 APから39.9 AP、DAB DETR ResNet-18で36.2 APから41.5 AP、DINO ResNet-50で49.0 APから51.4 APへと改善された。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Yi Liu, Luti... às arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.06443.pdfPerguntas Mais Profundas