Core Concepts
시각 장애인과 저시력자를 위해 다중 모달 기반 모델을 활용하여 환경에 대한 이해와 위험 감지를 향상시킬 수 있다.
Abstract
이 연구는 시각 장애인과 저시력자(pBLV)가 익숙하지 않은 환경에서 겪는 어려움을 해결하기 위해 다중 모달 기반 모델을 제안한다. pBLV는 전체적인 장면 인식과 정확한 물체 식별에 어려움을 겪으며, 시력 저하로 인해 독립적으로 위험 요소를 감지하기 어렵다. 기존 보조 기술은 지속적인 학습과 견고성 부족으로 인해 실제 상황에서 효과가 제한적이다.
이 연구에서는 대규모 사전 학습된 기반 모델과 프롬프트 엔지니어링을 활용하여 pBLV를 위한 효과적인 시스템을 개발했다. 이미지 태깅 모듈, 프롬프트 엔지니어링 모듈, 비전-언어 모듈로 구성된 이 시스템은 pBLV에게 환경에 대한 상세하고 포괄적인 설명과 위험 경고를 제공한다. 실내외 데이터셋에 대한 실험 결과, 이 시스템은 물체를 정확하게 인식하고 환경에 대한 통찰력 있는 설명을 제공할 수 있음을 보여준다.
Stats
시각 장애인과 저시력자는 복잡한 환경에서 시각 검색에 어려움을 겪는다.
기존 보조 기술은 지속적인 학습과 견고성 부족으로 인해 실제 상황에서 효과가 제한적이다.
이 연구에서 제안한 시스템은 대규모 사전 학습된 기반 모델과 프롬프트 엔지니어링을 활용하여 pBLV를 위한 효과적인 시각 인식 기능을 제공한다.
Quotes
"시각 장애인과 저시력자는 익숙하지 않은 환경에서 전체적인 장면 인식과 정확한 물체 식별에 어려움을 겪는다."
"기존 보조 기술은 지속적인 학습과 견고성 부족으로 인해 실제 상황에서 효과가 제한적이다."
"이 연구에서는 대규모 사전 학습된 기반 모델과 프롬프트 엔지니어링을 활용하여 pBLV를 위한 효과적인 시스템을 개발했다."