toplogo
Entrar

Selbstüberwachte 3D-Mehrpersonen-Posenschätzung ohne Etikettierung


Conceitos essenciais
Das vorgeschlagene System schätzt die 3D-Posen mehrerer Personen in einer Szene ohne Verwendung von annotierten Datensätzen. Es verwendet selbstüberwachtes Lernen, um die Zuordnung der 2D-Skelette zwischen den Kameras und die endgültige 3D-Posenschätzung durchzuführen.
Resumo
Das vorgeschlagene System besteht aus drei Stufen: Skelettdetektion: Verwendung eines effizienten 2D-Skelettdetektors, um die Positionen der Körpergelenke in den Kamerabildern zu schätzen. Skelettabgleich: Ein Graph-Neuronales-Netz (GNN) ordnet die 2D-Skelette aus den verschiedenen Kameras den richtigen Personen zu, ohne annotierte Trainingsdaten zu benötigen. 3D-Posenschätzung: Ein Multi-Layer-Perceptron (MLP) schätzt die 3D-Koordinaten der Körpergelenke aus den zugeordneten 2D-Skeletten, ebenfalls ohne Verwendung von annotierten 3D-Daten. Die Autoren evaluieren ihr System auf zwei Datensätzen: dem CMU Panoptic-Datensatz und einem eigens erstellten Datensatz. Die Ergebnisse zeigen, dass ihr Ansatz vergleichbare Genauigkeit wie andere state-of-the-art-Methoden erreicht, aber deutlich schneller ist und keine annotierten Trainingsdaten benötigt. Außerdem demonstrieren sie, dass das System auch auf einem mobilen Roboter mit nur zwei Kameras eingesetzt werden kann.
Estatísticas
Die durchschnittliche Projektion des Fehlers der Grundwahrheit-3D-Posen in die Kamerabilder beträgt zwischen 3,65 und 10,73 Pixel, je nach verwendetem Datensatz und Kamera. Die durchschnittliche Zeit für die Generierung der Personenvorschläge beträgt 31,67 ms. Die durchschnittliche Zeit für die 3D-Posenschätzung pro Person beträgt 5,83 ms.
Citações
"Das vorgeschlagene System besteht aus drei Stufen: Skelettdetektion, Skelettabgleich und 3D-Posenschätzung." "Die Ergebnisse zeigen, dass unser Ansatz vergleichbare Genauigkeit wie andere state-of-the-art-Methoden erreicht, aber deutlich schneller ist und keine annotierten Trainingsdaten benötigt."

Principais Insights Extraídos De

by Daniel Rodri... às arxiv.org 04-10-2024

https://arxiv.org/pdf/2212.08731.pdf
Multi-person 3D pose estimation from unlabelled data

Perguntas Mais Profundas

Wie könnte das vorgeschlagene System erweitert werden, um auch Interaktionen zwischen Personen zu erfassen

Um Interaktionen zwischen Personen zu erfassen, könnte das vorgeschlagene System um eine zusätzliche Schicht erweitert werden, die auf der bereits vorhandenen Architektur aufbaut. Diese neue Schicht könnte auf Graph Neural Networks (GNNs) basieren und speziell darauf trainiert werden, Interaktionen zwischen den erkannten Personen zu identifizieren. Durch die Analyse der räumlichen Beziehungen und Bewegungsmuster zwischen den Personen in den verschiedenen Ansichten könnte das System in der Lage sein, Interaktionen wie Händeschütteln, Umarmungen oder gemeinsame Aktivitäten zu erkennen. Diese Erweiterung würde es ermöglichen, nicht nur die individuellen Posen der Personen zu schätzen, sondern auch deren Beziehungen zueinander zu verstehen.

Welche Herausforderungen müssen adressiert werden, um das System in Echtzeit-Anwendungen wie autonome Fahrzeuge zu integrieren

Um das System in Echtzeit-Anwendungen wie autonome Fahrzeuge zu integrieren, müssen mehrere Herausforderungen adressiert werden. Zunächst muss die Rechenleistung des Systems optimiert werden, um Echtzeitverarbeitung zu gewährleisten. Dies könnte durch die Implementierung von Hardwarebeschleunigungstechniken wie GPU-Verarbeitung oder Edge-Computing erreicht werden. Des Weiteren müssen die Algorithmen des Systems effizienter gestaltet werden, um die Verarbeitungszeit zu minimieren. Zudem ist eine robuste Datenerfassung und -verarbeitung erforderlich, um mit den Echtzeitdatenströmen umzugehen und schnelle Entscheidungen zu treffen. Schließlich müssen auch Aspekte wie Echtzeit-Kalibrierung der Kameras und Synchronisation der Datenströme berücksichtigt werden, um eine präzise und konsistente Leistung des Systems zu gewährleisten.

Wie könnte das selbstüberwachte Lernparadigma auf andere Probleme der Computervision übertragen werden, um die Abhängigkeit von annotierten Datensätzen zu reduzieren

Das selbstüberwachte Lernparadigma, das in dem vorgeschlagenen System verwendet wird, könnte auf andere Probleme der Computervision übertragen werden, um die Abhängigkeit von annotierten Datensätzen zu reduzieren. Zum Beispiel könnte es auf die Segmentierung von Bildern angewendet werden, indem das Modell lernt, die Pixelklassen basierend auf den visuellen Merkmalen der Daten zu identifizieren. Ebenso könnte es auf die Objekterkennung angewendet werden, indem das Modell lernt, verschiedene Objekte in Bildern zu identifizieren, ohne auf annotierte Daten angewiesen zu sein. Durch die Anpassung des selbstüberwachten Lernansatzes auf verschiedene Problemstellungen der Computervision könnten neue Möglichkeiten zur effizienten Modellierung und Verarbeitung visueller Daten erschlossen werden.
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star