핵심 개념
비전-언어 모델을 활용하여 자연스러운 운전 동영상에서 운전자의 주의력 저하 행동을 효과적으로 식별할 수 있다.
초록
이 연구는 운전자의 주의력 저하 행동을 실제 운전 상황에서 인식하는 것이 중요하다는 점을 강조한다. 기존의 컴퓨터 비전 기술은 대량의 주석이 달린 데이터가 필요하여 일반화 능력, 효율성 및 확장성이 제한적이었다. 이 연구에서는 비전-언어 모델을 활용하여 주의력 저하 행동을 인식하는 일반화된 프레임워크를 제안한다.
구체적으로 다음과 같은 내용을 다룬다:
- CLIP 모델의 비전 임베딩을 활용하여 주의력 저하 행동을 0-shot 전이 및 태스크 기반 fine-tuning으로 분류할 수 있다.
- 프레임 기반 모델(Zero-shotCLIP, Single-frameCLIP, Multi-frameCLIP)과 비디오 기반 모델(VideoCLIP)을 제안하고 평가한다.
- 운전자 수준의 분리와 교차 검증을 통해 모델의 일반화 성능을 검증한다.
- 다양한 데이터셋에서 제안 모델들의 우수한 성능을 입증한다.
통계
운전 중 주의력 저하로 인한 사고는 전체 사고의 8%를 차지한다.
2023년 전 세계적으로 119만 명이 교통사고로 사망했다.
운전자 관련 요인(오류, 약물 복용, 피로, 주의력 저하)으로 인한 사고가 전체 사고의 90%에 달한다.
주의력 저하로 인한 사고 위험이 11.1% 증가한다.
인용구
"운전자의 상태를 실시간으로 감지하고 효과적인 피드백 신호를 제공하면 주의력 저하로 인한 사고를 크게 줄일 수 있다."
"자연스러운 운전 데이터 분석을 통해 주의력 저하와 사고 강도 간의 상당한 관련성이 관찰되었다."