Core Concepts
스마트 안경에 내장된 RGB 카메라와 대형 언어 모델(LLM)을 활용하여 사용자의 개인 선호도와 텍스트 정보를 결합하여 독서 지원 기능을 제공하는 시스템
Abstract
이 연구는 시각 장애인을 위한 독서 지원 시스템을 제안합니다. 주요 내용은 다음과 같습니다:
Aria 스마트 안경에 내장된 RGB 카메라를 사용하여 사용자의 시야에서 텍스트 정보를 캡처합니다.
객체 탐지 및 광학 문자 인식(OCR) 기술을 활용하여 텍스트 정보를 추출합니다.
대형 언어 모델(GPT4)을 사용하여 추출된 텍스트를 디지털 형식으로 변환하고 사용자의 개인 선호도와 결합합니다.
채팅 기반 사용자 인터페이스를 통해 사용자가 텍스트 정보에 대한 질문을 하면 맥락에 맞는 답변을 제공합니다.
이 시스템은 레스토랑 메뉴 읽기 시나리오에서 평가되었습니다. 다국어 메뉴 카드에서 96.77%의 높은 텍스트 추출 정확도를 보였으며, 사용자 만족도 또한 매우 높게 나타났습니다. 이는 스마트 안경과 대형 언어 모델을 활용하여 시각 장애인을 위한 독서 지원 솔루션을 제공할 수 있음을 보여줍니다.
Stats
2010년 기준 50세 이상 성인의 전 세계 시각 장애 인구는 약 1억 8600만 명으로 추정됩니다.
미국에서 40세 이상 성인의 교정 불가능한 시력 문제 유병률은 300만 명을 초과하며, 2050년까지 700만 명으로 증가할 것으로 예상됩니다.
본 연구에서 제안한 시스템은 메뉴 카드 텍스트 추출 정확도 96.77%를 달성했습니다.
모든 참가자들이 시스템의 성능에 매우 만족한다고 평가했습니다(평균 4.87점/5점).
Quotes
"스마트 안경과 대형 언어 모델을 활용하여 시각 장애인을 위한 독서 지원 솔루션을 제공할 수 있습니다."
"본 연구에서 제안한 시스템은 메뉴 카드 텍스트 추출 정확도 96.77%를 달성했습니다."
"모든 참가자들이 시스템의 성능에 매우 만족한다고 평가했습니다."