Основные понятия
Ein neuartiger Ansatz zur Fusion von Audio- und Videosignalen, der räumliche und zeitliche Korrelationen separat modelliert, um die Blickvorhersage in egozentrische Videos zu verbessern.
Аннотация
Die Studie präsentiert einen neuartigen Ansatz zur Vorausschau von Blickbewegungen in egozentrische Videos, indem sowohl visuelle als auch Audioinformationen genutzt werden.
Der Kernaspekt ist ein Modell, das die Audio-Visuelle-Fusion in zwei separaten Modulen für räumliche und zeitliche Korrelationen vornimmt. Das räumliche Modul erfasst die Zusammenhänge zwischen Audiosignalen und visuellen Objekten innerhalb eines Frames, während das zeitliche Modul die Beziehungen zwischen Audio und Videosequenzen über die Zeit modelliert.
Zusätzlich wird ein neuartiges kontrastives Lernverfahren eingeführt, das die fusionierten Audio-Visuelle-Repräsentationen weiter verbessert. Umfangreiche Experimente auf zwei egozentrische Videodatensätzen zeigen, dass der vorgeschlagene Ansatz die Leistung bei der Blickvorhersage deutlich steigert und den Stand der Technik übertrifft.
Die Visualisierungen demonstrieren, wie das Modell die Korrelationen zwischen Audio und visuellen Merkmalen in Raum und Zeit erfasst, um die Blickvorhersage zu verbessern.
Статистика
Die Beobachtungszeit beträgt 3 Sekunden und die Vorhersagezeit 2 Sekunden.
Die Videoframes werden mit einer Auflösung von 256x256 Pixeln und einer Framerate von 8 FPS verarbeitet.
Die Audioeingabe wird als Spektrogramm mit 256 Frequenzbändern und einer Fenstergröße von 10ms sowie einem Überlapp von 5ms dargestellt.
Цитаты
"Egozentrische Blickvorhersage dient als Schlüsselbaustein für die aufkommende Fähigkeit der Erweiterten Realität."
"Audio-Signale können als wichtiger Hilfsmittelhinweis für die egozentrische Blickvorhersage dienen."