핵심 개념
VIAssist는 시각 장애인의 낮은 품질 이미지를 식별하고 구체적인 재촬영 방법을 제안하여 신뢰할 수 있는 답변을 제공한다.
초록
이 논문은 시각 장애인을 위한 멀티모달 대형 언어 모델(MLLM) 기반 질의응답 시스템 VIAssist를 소개한다.
시각 장애인은 제한된 시력으로 인해 낮은 품질의 이미지를 촬영하게 되며, 이는 MLLM의 응답 신뢰성을 저하시킨다.
VIAssist는 다음과 같은 특징을 가진다:
- 낮은 품질의 이미지를 식별하고 구체적인 재촬영 방법을 제안한다.
- 고품질 이미지가 제공되면 시각 장애인의 질문에 대한 신뢰할 수 있는 답변을 생성한다.
VIAssist는 기존 MLLM 대비 BERTScore와 ROUGE 점수가 각각 0.21, 0.31 높은 성능을 보였다. 이를 통해 VIAssist가 시각 장애인의 요구에 더 잘 적응할 수 있음을 확인했다.
통계
시각 장애인 2.2억 명 이상이 전 세계적으로 영향을 받고 있다.
VizWiz 데이터셋에서 28%의 이미지가 "답변 불가능"으로 분류되었다.
LLaVA-1.5와 Qwen-VL-Chat 모델의 VizWiz 데이터셋 정확도가 각각 VQAv2 대비 26.4%, 39.3% 감소했다.
MiniGPT4와 ViLT 모델의 VizWiz 데이터셋 "답변 가능" 질문 정확도가 40% 미만이다.
인용구
"시각 장애인(VI) 개인은 부분적 또는 완전한 시각 인지 장애를 겪는 사람들을 말한다."
"최근 멀티모달 대형 언어 모델(MLLM)의 놀라운 성능과 자연스러운 상호작용이 주목을 받고 있다."
"VI 개인이 촬영한 이미지는 시각이 있는 사람이 촬영한 이미지보다 훨씬 낮은 품질을 보인다."