SLYKLatent는 자기 지도 학습과 전이 학습을 결합하여 얼굴 이미지에서 풍부한 잠재 표현을 추출하고 시선 추정 정확도를 향상시키는 새로운 프레임워크입니다.
LG-Gaze는 언어 모델의 의미론적 풍부함을 활용하여 시선 추정 모델의 도메인 일반화 능력을 향상시키는 새로운 프레임워크입니다.
본 논문에서는 탁상형 시나리오에서 인간의 시선 방향을 추정하는 학습 로봇 아키텍처를 제안하며, 이는 자연스러운 인간-로봇 상호 작용에 대한 감정적, 사회적, 인지적 연구를 지원합니다. 외부 하드웨어 없이 로봇의 센서만을 사용하는 이 시스템은 인간의 자발적인 행동을 방해하지 않고 자연스러운 상호 작용을 가능하게 하여, 특히 임상 환경과 같이 통제되지 않은 환경에서 유용하게 활용될 수 있습니다.
본 논문에서는 심층 학습 기반 시선 방향 회귀 방법들을 심층적으로 검토하고, 기존 연구들의 검증 방식 불일치 문제를 제기하며, Gaze360 데이터셋을 활용한 재평가를 통해 실질적인 최첨단 기술을 밝히고, 시간적 모델의 정적 조건에서의 성능 우수성을 실험적으로 입증합니다.