Präzise 3D-Schätzung der menschlichen Körperhaltung mit Multi-Perspektiven-Raum-Zeit-Beziehungs-Transformatoren
Ein neuartiges Netzwerkarchitektur-Design, das die Selbstaufmerksamkeitsmechanismen von Transformatoren nutzt, um räumliche, zeitliche und 3D-Positionsmerkmale aus Videodatensätzen für eine präzisere 3D-Schätzung der menschlichen Körperhaltung zu extrahieren.