Der Artikel präsentiert ein vollständig selbstüberwachtes Verfahren namens "Cascaded Multi-view Aggregating Network" (CMANet) zur 3D-Schätzung der menschlichen Körperhaltung aus Bildern aus mehreren Ansichten.
Das Verfahren besteht aus zwei Hauptkomponenten:
Intra-View-Modul (IRV): Extrahiert kameraspezifische Informationen wie Kameraposition, projizierte 2D-Körperhaltung und ansichtsabhängige 3D-Körperhaltung für jede Ansicht.
Inter-View-Modul (IEV): Fusioniert die komplementären Körperhaltungsinformationen und geometrischen Einschränkungen über die verschiedenen Ansichten, um die Kameraposition zu verfeinern und eine endgültige 3D-Körperhaltung zu optimieren.
Um die heterogenen Informationen aus den verschiedenen Ansichten zu integrieren, definiert das Verfahren einen kanonischen Parameterraum, der durch kameraspezifische Parameter und allgemeine Körperform- und Haltungsparameter dargestellt wird.
Das Verfahren verwendet einen zweistufigen Lernprozess: Zunächst lernt das IRV-Modul, die Kameraposition und ansichtsabhängige 3D-Körperhaltung aus 2D-Schlüsselpunkten zu schätzen. Anschließend wird das IRV-Modul eingefroren und das IEV-Modul lernt, die Kameraposition zu verfeinern und eine endgültige 3D-Körperhaltung unter Ausnutzung der Komplementarität zwischen den Ansichten und geometrischer Einschränkungen zu optimieren.
Umfangreiche Experimente auf großen Datensätzen zeigen die Effektivität und Überlegenheit der vorgeschlagenen Komponenten und Methode.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Xiaoben Li,M... a las arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12440.pdfConsultas más profundas