Die Studie präsentiert einen neuartigen Ansatz zur Vorausschau von Blickbewegungen in egozentrische Videos, indem sowohl visuelle als auch Audioinformationen genutzt werden.
Der Kernaspekt ist ein Modell, das die Audio-Visuelle-Fusion in zwei separaten Modulen für räumliche und zeitliche Korrelationen vornimmt. Das räumliche Modul erfasst die Zusammenhänge zwischen Audiosignalen und visuellen Objekten innerhalb eines Frames, während das zeitliche Modul die Beziehungen zwischen Audio und Videosequenzen über die Zeit modelliert.
Zusätzlich wird ein neuartiges kontrastives Lernverfahren eingeführt, das die fusionierten Audio-Visuelle-Repräsentationen weiter verbessert. Umfangreiche Experimente auf zwei egozentrische Videodatensätzen zeigen, dass der vorgeschlagene Ansatz die Leistung bei der Blickvorhersage deutlich steigert und den Stand der Technik übertrifft.
Die Visualisierungen demonstrieren, wie das Modell die Korrelationen zwischen Audio und visuellen Merkmalen in Raum und Zeit erfasst, um die Blickvorhersage zu verbessern.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Bolin Lai,Fi... at arxiv.org 03-25-2024
https://arxiv.org/pdf/2305.03907.pdfDeeper Inquiries