核心概念
사용자가 이미지를 보면서 음성 안내를 듣는 동안 사용자의 시선 움직임을 실시간으로 예측하는 것이 핵심 내용입니다.
摘要
이 연구는 사용자가 이미지를 보면서 음성 안내를 듣는 동안 사용자의 시선 움직임을 실시간으로 예측하는 것을 목표로 합니다. 연구진은 RefCOCO-Gaze라는 대규모 데이터셋을 구축하였고, 이를 바탕으로 Attention in Referral Transformer (ART)라는 모델을 개발하였습니다.
ART 모델은 다음과 같은 특징을 가지고 있습니다:
- 비전-언어 통합 인코더를 통해 이미지 정보와 언어 정보를 통합적으로 학습합니다.
- 자기회귀적 디코더를 통해 이전 시선 정보를 활용하여 각 단어에 대한 시선 움직임을 예측합니다.
- 물체 위치 추정 및 물체 카테고리 예측 등의 보조 과제를 통해 시선 예측 성능을 향상시킵니다.
실험 결과, ART 모델은 기존 모델들에 비해 시선 예측 성능이 크게 향상되었으며, 사람의 시선 움직임 패턴, 즉 대기, 스캔, 검증 등의 전략적 행동을 잘 포착하는 것으로 나타났습니다. 이러한 결과는 ART 모델이 음성 안내에 따른 사용자 주의력 예측에 효과적으로 활용될 수 있음을 시사합니다.
統計資料
사용자의 시선 움직임은 음성 안내에 따라 실시간으로 변화합니다.
사용자의 시선은 음성 안내가 시작되기 전부터 움직이기 시작하며, 음성 안내가 끝난 후에도 계속 움직입니다.
사용자의 시선 움직임은 음성 안내의 단어 단위로 변화하며, 단어에 따라 0개에서 여러 개의 시선 움직임이 관찰됩니다.
引述
"사용자가 이미지를 보면서 음성 안내를 듣는 동안 사용자의 시선 움직임을 실시간으로 예측하는 것이 핵심 내용입니다."
"ART 모델은 비전-언어 통합 인코더, 자기회귀적 디코더, 보조 과제 학습 등의 특징을 통해 시선 예측 성능을 크게 향상시켰습니다."
"ART 모델은 사람의 시선 움직임 패턴, 즉 대기, 스캔, 검증 등의 전략적 행동을 잘 포착하는 것으로 나타났습니다."