Die Arbeit präsentiert einen umfassenden Ansatz zur Blickschätzung im Fahrzeug. Zunächst wird der IVGaze-Datensatz eingeführt, der die erste Sammlung von Blickdaten im Fahrzeugumfeld darstellt. Der Datensatz wurde von 125 Probanden aufgenommen und enthält eine große Bandbreite an Blick- und Kopfpositionen innerhalb von Fahrzeugen. Um die Herausforderungen bei der Annotation von Blickzielen zu bewältigen, wurde eine neue Methode zur Kalibrierung der Blickziele entwickelt.
Darüber hinaus wird ein neuartiger Ansatz zur Blickschätzung im Fahrzeug vorgestellt, der als "Dual-Stream Gaze Pyramid Transformer" (GazeDPTR) bezeichnet wird. Dieser Ansatz nutzt Transformers, um Merkmale auf mehreren Ebenen zu integrieren, und verwendet Perspektivtransformation, um Bilder zu normalisieren und Kameraposition zu nutzen, um normalisierte und originale Bilder für eine genaue Blickschätzung zu kombinieren. GazeDPTR zeigt state-of-the-art-Leistung auf dem IVGaze-Datensatz.
Schließlich wird eine neuartige Strategie zur Klassifizierung von Blickzonen vorgestellt, indem GazeDPTR erweitert wird. Hierbei werden sowohl Positionsmerkmale aus den Schnittpunkten des Blicks mit einer definierten Grundebene als auch visuelle Merkmale aus den Bildern genutzt, um eine überlegene Leistung im Vergleich zur alleinigen Nutzung visueller Merkmale zu erzielen, was den Vorteil der Blickschätzung belegt.
翻譯成其他語言
從原文內容
arxiv.org
深入探究