Der Artikel präsentiert ein vollständig selbstüberwachtes Verfahren namens "Cascaded Multi-view Aggregating Network" (CMANet) zur 3D-Schätzung der menschlichen Körperhaltung aus Bildern aus mehreren Ansichten.
Das Verfahren besteht aus zwei Hauptkomponenten:
Intra-View-Modul (IRV): Extrahiert kameraspezifische Informationen wie Kameraposition, projizierte 2D-Körperhaltung und ansichtsabhängige 3D-Körperhaltung für jede Ansicht.
Inter-View-Modul (IEV): Fusioniert die komplementären Körperhaltungsinformationen und geometrischen Einschränkungen über die verschiedenen Ansichten, um die Kameraposition zu verfeinern und eine endgültige 3D-Körperhaltung zu optimieren.
Um die heterogenen Informationen aus den verschiedenen Ansichten zu integrieren, definiert das Verfahren einen kanonischen Parameterraum, der durch kameraspezifische Parameter und allgemeine Körperform- und Haltungsparameter dargestellt wird.
Das Verfahren verwendet einen zweistufigen Lernprozess: Zunächst lernt das IRV-Modul, die Kameraposition und ansichtsabhängige 3D-Körperhaltung aus 2D-Schlüsselpunkten zu schätzen. Anschließend wird das IRV-Modul eingefroren und das IEV-Modul lernt, die Kameraposition zu verfeinern und eine endgültige 3D-Körperhaltung unter Ausnutzung der Komplementarität zwischen den Ansichten und geometrischer Einschränkungen zu optimieren.
Umfangreiche Experimente auf großen Datensätzen zeigen die Effektivität und Überlegenheit der vorgeschlagenen Komponenten und Methode.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询