Eine Methode zur Erstellung von Ganzkörper-Selfies aus Nahaufnahmen, die normalerweise nur den oberen Teil des Körpers erfassen. Durch Kombination mehrerer Selfies und eines Hintergrundbilds wird ein realistisches Ganzkörper-Foto in einer gewünschten Pose generiert.
EDTalk ist ein effizientes Disentanglement-Framework, das eine präzise Kontrolle über Mundform, Kopfhaltung und emotionalen Ausdruck bei der Erzeugung von Sprechenden-Kopf-Videos ermöglicht.
Diese Arbeit präsentiert eine innovative Implementierung von Sparse-Konvolutions-Operatoren unter Verwendung von CUDA, die auf maximaler Parallelität und effizienter Datenzugriffsmusteroptimierung basiert. Sie führt einen neuartigen Ansatz zur Handhabung von Tensordaten innerhalb des CUDA-Frameworks ein, der die Benutzerfreundlichkeit von PyTorch nutzt und gleichzeitig die Leistungsfähigkeit von CUDA ausschöpft.
Neuronale Strahlungsfelder (NeRF) haben in den letzten Jahren bemerkenswerte Fortschritte in den Bereichen Computergrafik und Bildverarbeitung erzielt und bieten starke technische Unterstützung für die Lösung von Schlüsselaufgaben wie 3D-Szenenverständnis, Synthese neuer Perspektiven, Körperrekonstruktion, Robotik und vieles mehr.
Unser Ansatz GD2-NeRF ist ein zweistufiges generatives Detailkompensationsframework, das sowohl feintuning-freie Inferenz als auch lebendige plausible Details ermöglicht. In der ersten Stufe injiziert OPP effizient ein GAN-Modell in bestehende OG-NeRF-Pipelines, um die Unschärfe-Probleme mit in-distribution-Priors aus dem Trainingsdatensatz zu beheben. In der zweiten Stufe nutzt Diff3DE die out-distribution-Priors aus vortrainierten Diffusionsmodellen, um zusätzliche lebendige Details bei gleichzeitiger 3D-Konsistenz hinzuzufügen.
Die vorgeschlagene Methode V4D nutzt 3D-Voxel, um das 4D-neuronale Strahlungsfeld direkt zu modellieren, ohne auf einen kanonischen Raum angewiesen zu sein. Die Methode erzielt einen Leistungsgewinn durch bedingte Positionscodierung und ein Pixel-Level-Verfeinerungsmodul auf Basis von Nachschlagetabellen.
Ein diffusionsbasiertes System zur Erstellung von 2D-Avataren, das realistische menschliche Videos mit präzisen Körper- und Handbewegungen sowie lebendigen Gesichtsausdrücken generiert.
Eine neue Methode zur zeiteffizienten Lichtfelderfassung, die eine kodierte Blende und eine Ereigniskamera kombiniert, um in einer einzigen Belichtung Informationen über die Parallaxe zu erfassen und daraus das Lichtfeld zu rekonstruieren.