Khái niệm cốt lõi
텍스트 가이드를 활용하여 시선 추정 성능을 향상시키는 GazeCLIP 모델을 제안한다.
Tóm tắt
본 논문은 시선 추정 성능 향상을 위해 텍스트 가이드를 활용하는 GazeCLIP 모델을 제안한다. 기존의 시선 추정 방법들은 단일 이미지 신호만을 활용하여 시선 방향을 추정하였지만, 현재 지배적인 텍스트 가이드의 잠재력을 간과하였다. 이에 본 연구에서는 CLIP 모델을 활용하여 텍스트-이미지 간 협업 효과를 활용하고자 한다.
구체적으로, 본 연구에서는 다음과 같은 핵심 내용을 다룬다:
언어 설명 생성기를 설계하여 대략적인 방향 단서가 포함된 텍스트 신호를 생성한다.
CLIP 기반 백본을 제안하여 텍스트-시선 쌍을 효과적으로 특징화한다.
다중 모달 융합 모듈을 구현하여 이질적인 입력 간 상호관계를 모델링한다.
세 가지 주요 데이터셋에 대한 실험 결과, GazeCLIP이 기존 최신 방법 대비 평균 0.5도(9.3%) 향상된 성능을 달성하였다. 이는 텍스트 가이드가 시선 추정 성능 향상에 효과적임을 보여준다.
Thống kê
제안 모델 GazeCLIP은 기존 최신 방법 대비 MPIIFaceGaze 데이터셋에서 0.5도(12%), RT-Gene 데이터셋에서 0.4도(5%), EyeDiap 데이터셋에서 0.6도(11%) 향상된 성능을 달성했다.
Trích dẫn
"텍스트 가이드를 활용하여 시선 추정 성능을 향상시키는 GazeCLIP 모델을 제안한다."
"CLIP 기반 백본을 제안하여 텍스트-시선 쌍을 효과적으로 특징화한다."
"다중 모달 융합 모듈을 구현하여 이질적인 입력 간 상호관계를 모델링한다."