Core Concepts
DETRsはYOLOsよりもリアルタイムオブジェクト検出において優れた性能を発揮する。
Abstract
本論文では、リアルタイムオブジェクト検出における最新のDETRsとYOLOsの性能比較を行っている。
まず、NMSの処理時間がYOLOsの速度と精度に大きな影響を与えることを分析している。そのため、エンドツーエンドの速度ベンチマークを提案し、YOLOsとDETRsの公平な比較を行っている。
次に、RT-DETRという新しいリアルタイムエンドツーエンドオブジェクト検出器を提案している。RT-DETRは以下の2つの主要な改善点を持つ:
効率的なハイブリッドエンコーダ: マルチスケールの特徴を効率的に処理することで、推論速度を大幅に向上させている。
不確実性最小クエリ選択: オブジェクトクエリの初期化を最適化することで、検出精度を向上させている。
さらに、RT-DETRは推論速度を柔軟に調整できる機能も備えている。
実験の結果、RT-DETRはYOLOsやDINO-Deformable-DETRと比べて、両方の性能(速度と精度)で優れた結果を示している。特に、RT-DETR-R50はDINO-Deformable-DETR-R50よりも2.2% AP高く、21倍高速である。
Stats
YOLOv5-Lモデルの推論時間は54ms、精度は49.0% AP
RT-DETR-R50モデルの推論時間は9.3ms、精度は53.1% AP
Quotes
"DETRsは、NMSを必要としないため、リアルタイムオブジェクト検出における遅延を排除できる。"
"RT-DETRは、効率的なハイブリッドエンコーダとクエリ選択の最適化により、YOLOsとDETRsの両方の性能を向上させている。"