Der DiVa-360-Datensatz wurde entwickelt, um die Forschung zu dynamischen neuronalen Feldern voranzubringen. Er enthält synchronisierte, hochauflösende und langfristige 360-Grad-Videosequenzen von Tischszenen mit dynamischen Objekten und Handinteraktionen.
Der Datensatz umfasst insgesamt 17,4 Millionen Bildframes und besteht aus 46 dynamischen Sequenzen, darunter 21 objektzentrierte Sequenzen mit verschiedenen Bewegungsarten und 25 Sequenzen mit Handinteraktionen. Zusätzlich gibt es 8 langfristige dynamische Sequenzen von bis zu 3 Minuten Länge.
Für die Aufnahmen wurde ein neues, kostengünstiges Erfassungssystem namens BRICS entwickelt, das 53 synchronisierte Kameras umfasst. Der Datensatz enthält neben den Videosequenzen auch Vordergrund-Hintergrund-Segmentierungsmasken, Audiosignale und Textbeschreibungen.
Um den Datensatz zu benchmarken, wurden drei state-of-the-art-Methoden für dynamische neuronale Felder evaluiert. Die Ergebnisse zeigen, dass die Methoden, die jedes Einzelbild unabhängig modellieren, bessere Rekonstruktionsqualität und schnellere Trainingszeiten erreichen als Methoden, die explizit zeitliche Informationen nutzen. Außerdem haben die Methoden Schwierigkeiten, hochfrequente Details und statische Hintergründe zu erfassen. Die Analyse zeigt, dass weitere Forschung an effizienten Methoden für langfristige dynamische neuronale Felder notwendig ist.
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Cheng-You Lu... : arxiv.org 03-27-2024
https://arxiv.org/pdf/2307.16897.pdfDaha Derin Sorular