본 논문에서는 운전자의 주의를 운전 장면과 연관시키는 데 어려움을 겪는 기존 방식을 개선하기 위해 EraW-Net이라는 새로운 딥러닝 모델을 제안합니다. EraW-Net은 운전자의 얼굴 표정과 도로 장면의 정보를 동시에 활용하여 운전자가 어디에 주의를 기울이는지 정확하게 추정합니다.
기존의 운전자 주의 추정 방식은 운전자의 시선 또는 머리 움직임과 같은 단일 시점 정보에 의존하거나, 운전자의 시선을 장면에 투영하는 방식으로 제한적인 성능을 보였습니다. 이러한 방식은 운전자의 주의와 도로 상황 간의 복잡한 관계를 충분히 반영하지 못하는 한계가 있습니다.
EraW-Net은 W-Net이라는 새로운 아키텍처를 사용하여 운전자 얼굴 이미지와 도로 장면 이미지에서 추출한 특징을 효과적으로 통합합니다. W-Net은 "인코딩-독립 부분 디코딩-융합 디코딩" 구조를 통해 두 입력의 상보적인 정보를 체계적으로 학습하고, 도메인 간 의미론적 불일치 문제를 해결합니다.
운전 중 발생하는 지속적이고 불확실한 움직임을 처리하기 위해 DAF-Module을 제안합니다. 이 모듈은 프레임 간 움직임 정보를 활용하여 특징 표현을 향상시키고, 주파수 및 공간 도메인에서의 필터링을 통해 모델이 차별적인 단서에 집중하도록 유도합니다.
운전자의 다양한 자세 변화에도 불구하고 주의를 정확하게 포착하기 위해 GCS-Module을 도입했습니다. 이 모듈은 여러 계층의 다중 스케일 특징을 집계하여 머리 회전 및 눈 움직임과 같은 다양한 수준의 중요한 정보에 적응하여 얼굴 특징 표현을 정제합니다.
대규모 공개 데이터셋인 Look Both Ways (LBW) 데이터셋을 사용하여 EraW-Net의 성능을 평가했습니다. 실험 결과, EraW-Net은 기존 방식보다 우수한 성능을 보였으며, 운전 장면에서 운전자의 픽셀 수준 주의 매핑을 정확하게 추정했습니다.
EraW-Net은 운전자의 주의를 운전 장면과 연관시키는 데 있어 기존 방식의 한계를 극복하고, 보다 정확하고 강력한 성능을 제공합니다. 이는 첨단 운전자 보조 시스템 (ADAS) 및 자율 주행 기술 개발에 크게 기여할 것으로 기대됩니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문