이 논문은 시각 장애인을 위한 멀티모달 대형 언어 모델(MLLM) 기반 질의응답 시스템 VIAssist를 소개한다.
시각 장애인은 제한된 시력으로 인해 낮은 품질의 이미지를 촬영하게 되며, 이는 MLLM의 응답 신뢰성을 저하시킨다.
VIAssist는 다음과 같은 특징을 가진다:
VIAssist는 기존 MLLM 대비 BERTScore와 ROUGE 점수가 각각 0.21, 0.31 높은 성능을 보였다. 이를 통해 VIAssist가 시각 장애인의 요구에 더 잘 적응할 수 있음을 확인했다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Bufang Yang,... ב- arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02508.pdfשאלות מעמיקות