Core Concepts
MRC-Net ist ein zweistufiger Ansatz zur präzisen Schätzung der 6-DoF-Pose von Objekten mit bekannten 3D-Modellen aus einem einzelnen RGB-Bild. Die erste Stufe klassifiziert die Pose, während die zweite Stufe die Restpose innerhalb der Klasse regressiert. Eine neuartige Multi-Skalen-Residual-Korrelation (MRC) verbindet die beiden Stufen und erfasst Korrespondenzen zwischen Eingabe- und gerenderten Bildern.
Abstract
MRC-Net ist ein zweistufiger Ansatz zur 6-DoF-Objektposenschätzung aus einem einzelnen RGB-Bild. In der ersten Stufe wird die Pose klassifiziert, indem eine Menge von Posenbuckeln verwendet wird. In der zweiten Stufe wird die Restpose innerhalb der Klasse regressiert. Eine neuartige MRC-Schicht verbindet die beiden Stufen, indem sie Korrespondenzen zwischen Eingabe- und gerenderten Bildern auf mehreren Skalen erfasst.
Im Gegensatz zu herkömmlichen Ansätzen, die Klassifikation und Regression parallel trainieren, lernt MRC-Net die beiden Aufgaben sequentiell. Dadurch kann die Regressionsaufgabe direkt von den Klassifikationsergebnissen profitieren. Außerdem verwendet MRC-Net weiche Wahrscheinlichkeitsetiketten für die Klassifikation, um Mehrdeutigkeiten bei symmetrischen Objekten zu reduzieren.
MRC-Net erzielt den aktuellen Stand der Technik auf vier herausfordernden BOP-Benchmark-Datensätzen (T-LESS, LM-O, YCB-V, ITODD) und übertrifft andere RGB-basierte Methoden deutlich. Es ist ein einzelner, nicht-iterativer Ansatz, der keine komplexe Nachbearbeitung erfordert.
Stats
Die Pose eines Objekts kann durch drei Komponenten beschrieben werden: Rotation R ∈ SO(3), 2D-Übersetzung (tx, ty) ∈ R2 und 1D-Tiefe tz ∈ R.
Die Klassifikationsaufgabe verwendet K = 4608 diskrete Rotationsbuckel und eine 64x64-Gitteraufteilung für die Übersetzung sowie 1000 Bins für die Tiefe.
Quotes
"MRC-Net ist ein zweistufiger Ansatz zur präzisen Schätzung der 6-DoF-Pose von Objekten mit bekannten 3D-Modellen aus einem einzelnen RGB-Bild."
"Eine neuartige Multi-Skalen-Residual-Korrelation (MRC) verbindet die beiden Stufen und erfasst Korrespondenzen zwischen Eingabe- und gerenderten Bildern."
"MRC-Net erzielt den aktuellen Stand der Technik auf vier herausfordernden BOP-Benchmark-Datensätzen und übertrifft andere RGB-basierte Methoden deutlich."