本研究は、視覚障害者の読書支援を目的としたシステムを提案している。スマートグラスに搭載されたカメラで撮影した映像から、物体検出とOCRを使って文字情報を抽出する。その情報を大規模言語モデルのGPT4で処理し、ユーザーの好みに合わせた回答を生成する。
具体的には、レストランのメニューを読み取り、ユーザーの嗜好に合わせた料理の提案を行う。4人の参加者を対象に評価実験を行い、96.77%の高い精度でメニュー情報を抽出できることを示した。また、ユーザーの満足度も高く、視覚障害者の読書支援に有効であることが確認された。
本システムは、スマートグラスと大規模言語モデルを組み合わせることで、視覚障害者の日常生活を支援する新しい取り組みである。文字情報の抽出と理解、ユーザーの嗜好に合わせた回答生成など、幅広い機能を提供している。今後は音声インターフェースの導入など、さらなる使いやすさの向上が期待される。
To Another Language
from source content
arxiv.org
Djupare frågor