Core Concepts
LLM과 실시간 오픈 세계 객체 탐지 모델을 결합하여 카메라로 캡처된 프레임 내의 이상 징후를 식별하고, 비정상적인 상황을 강조하는 간단한 오디오 설명을 생성함으로써 복잡한 상황에서 안전한 시각 네비게이션을 지원합니다.
Abstract
이 연구는 경량 모바일 객체 탐지와 대규모 언어 모델의 결합을 통해 시각 장애인의 접근성 향상을 보여줍니다. 제안된 시스템은 실시간 장면 설명과 위험 경고를 제공하여 낮은 지연 시간을 달성하고 프롬프트 엔지니어링의 유연성을 입증합니다.
주요 내용:
- 실시간 오픈 세계 객체 탐지 모델 Yolo-World와 특수 프롬프트를 활용하여 카메라로 캡처된 프레임 내의 이상 징후를 식별합니다.
- 식별된 이상 징후에 대해 간단하고 오디오로 전달되는 설명을 생성하여 사용자에게 알립니다.
- LLM과 오픈 어휘 객체 탐지 모델의 장점을 활용하여 동적 시나리오 전환을 달성하여 사용자가 원활하게 장면 간을 전환할 수 있도록 합니다.
- 다양한 프롬프트 구성 요소의 성능 기여도를 탐구하고, 향후 시각 접근성 향상을 위한 비전을 제시합니다.
Stats
"차량과 사람이 근처에 있습니다."
"녹색 신호등이 감지되었습니다."
"경로에 장애물이 있습니다."
"왼쪽에 차량이 있습니다."
"즉각적인 위험은 없습니다."
"근처에 자전거가 있습니다."
"여러 사람과의 충돌 위험이 높습니다."
Quotes
"차량과 사람이 근처에 있습니다."
"녹색 신호등이 감지되었습니다."
"경로에 장애물이 있습니다."
"왼쪽에 차량이 있습니다."
"즉각적인 위험은 없습니다."
"근처에 자전거가 있습니다."
"여러 사람과의 충돌 위험이 높습니다."