Основные понятия
본 연구는 강화 학습 기반 트랜스포머 모델을 활용하여 비디오에서 인간의 시선 행동을 정확하게 예측하는 방법을 제안한다.
Аннотация
본 연구는 비디오에서 인간의 시선 행동을 효과적으로 예측하기 위한 새로운 방법을 제안한다.
- 강화 학습 기반 트랜스포머 모델을 활용하여 비디오를 관찰하고 인간의 시선 행동을 모방하는 에이전트를 학습시킴
- 가상 홈 환경에서 수집된 시선 추적 데이터를 활용하여 모델을 학습 및 평가
- 실험 결과, 제안 모델이 기존 방법들에 비해 시선 예측 정확도가 크게 향상됨
- 시선 예측 성능 향상을 통해 행동 인식 등 다운스트림 태스크에서도 우수한 성과를 보임
Статистика
비디오 프레임 크기는 1920 x 1080 픽셀이다.
참여자들은 약 60cm 떨어진 거리에서 비디오를 시청했다.
데이터셋은 총 1311개의 비디오로 구성되어 있으며, 이 중 986개는 학습, 60개는 검증, 265개는 테스트에 사용되었다.
Цитаты
"본 연구는 강화 학습 기반 트랜스포머 모델을 활용하여 비디오에서 인간의 시선 행동을 정확하게 예측하는 방법을 제안한다."
"실험 결과, 제안 모델이 기존 방법들에 비해 시선 예측 정확도가 크게 향상되었으며, 이를 통해 행동 인식 등 다운스트림 태스크에서도 우수한 성과를 보였다."