이 연구는 사용자가 이미지를 보면서 음성 안내를 듣는 동안 사용자의 시선 움직임을 실시간으로 예측하는 것을 목표로 합니다. 연구진은 RefCOCO-Gaze라는 대규모 데이터셋을 구축하였고, 이를 바탕으로 Attention in Referral Transformer (ART)라는 모델을 개발하였습니다.
ART 모델은 다음과 같은 특징을 가지고 있습니다:
실험 결과, ART 모델은 기존 모델들에 비해 시선 예측 성능이 크게 향상되었으며, 사람의 시선 움직임 패턴, 즉 대기, 스캔, 검증 등의 전략적 행동을 잘 포착하는 것으로 나타났습니다. 이러한 결과는 ART 모델이 음성 안내에 따른 사용자 주의력 예측에 효과적으로 활용될 수 있음을 시사합니다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Sounak Monda... ב- arxiv.org 09-11-2024
https://arxiv.org/pdf/2407.19605.pdfשאלות מעמיקות