Główne pojęcia
Ein einheitliches Grundmodell für 6D-Objektposenanschätzung und -verfolgung, das sowohl modellbasierte als auch modellfreie Setups unterstützt.
Streszczenie
Der Artikel präsentiert FoundationPose, ein einheitliches Grundmodell für 6D-Objektposenanschätzung und -verfolgung, das sowohl modellbasierte als auch modellfreie Setups unterstützt. Der Ansatz kann ohne Feinabstimmung direkt auf neuartige Objekte angewendet werden, solange deren CAD-Modell oder eine kleine Anzahl von Referenzbildern vorhanden ist. Dank des einheitlichen Frameworks sind die nachgelagerten Posenanschätzungsmodule in beiden Setups identisch, wobei eine neuronale implizite Darstellung für eine effiziente Neuansichtsynthese verwendet wird, wenn kein CAD-Modell verfügbar ist. Eine starke Verallgemeinerungsfähigkeit wird durch großangelegte synthetische Schulung erreicht, unterstützt durch ein großes Sprachmodell (LLM), eine neuartige transformerbasierte Architektur und eine kontrastive Lernformulierung. Umfangreiche Bewertungen auf mehreren öffentlichen Datensätzen mit herausfordernden Szenarien und Objekten zeigen, dass der einheitliche Ansatz die spezialisierten Methoden für jede Aufgabe deutlich übertrifft. Darüber hinaus erreicht er sogar vergleichbare Ergebnisse wie instanzbasierte Methoden, trotz reduzierter Annahmen.
Statystyki
Die Metrik für jede Aufgabe wird in den experimentellen Ergebnissen ausführlich erläutert.
Cytaty
Keine relevanten Zitate gefunden.