本文介紹了Tri-Cam,一個實用的基於深度學習的視線追蹤系統,使用三個廉價的RGB網絡攝像機。
首先,作者分析並將視線追蹤任務分為攝像機-眼睛幾何和眼睛-屏幕幾何兩部分。相應地,他們設計了一個分割的神經網絡結構來分別處理這兩個部分。
對於攝像機-眼睛幾何,作者提出了一種新的內部驗證機制,利用攝像機之間的幾何關係來增強追蹤精度。
對於眼睛-屏幕幾何,作者設計了一種加權融合策略,以提高對圖像質量波動的鲁棒性。
為了減少重新校準(重新訓練)的開銷,作者開發了一個低成本的隱式數據收集模塊,利用鼠標點擊機會。基於對日常電腦使用的觀察,他們建立了三個標準來過濾和改善隱式收集的數據樣本。
最後,作者收集了21名用戶的自由移動視線數據,並進行了廣泛的實驗,將Tri-Cam與最先進的商業眼球追蹤器Tobii Pro Spark進行了比較。實驗結果表明,Tri-Cam在支持更大自由移動範圍的同時,達到了與Tobii相近的追蹤精度。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Sikai Yang kl. arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19554.pdfDybere Forespørgsler