본 연구는 360도 이미지에서의 연속적인 시선 추적 데이터 생성을 위한 확산 모델 DiffGaze를 제안한다.
기존 연구들은 이미지 상의 고정점 예측(scanpath prediction) 또는 주의 집중 지도(saliency map) 예측에 초점을 맞추었지만, 이는 실제 사용자의 시선 추적 데이터의 시간적 특성을 반영하지 못한다는 한계가 있었다.
DiffGaze는 360도 이미지의 특징을 조건으로 하는 확산 모델을 사용하여 연속적인 시선 추적 데이터를 생성한다. 이를 위해 시간적 의존성과 공간적 의존성을 모델링하는 두 개의 Transformer를 활용한다.
실험 결과, DiffGaze는 기존 방법들에 비해 연속적인 시선 추적 데이터 생성, 고정점 예측, 주의 집중 지도 예측 등 다양한 평가 지표에서 우수한 성능을 보였다. 또한 사용자 평가에서도 실제 사용자의 시선 추적 데이터와 구분이 어려운 수준의 결과를 생성하였다.
본 연구는 360도 이미지에서의 시선 추적 데이터 생성 분야에 새로운 접근법을 제시하였으며, 다양한 응용 분야에 활용될 수 있을 것으로 기대된다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések