核心概念
視覚言語モデル(VLM)は、画像内の情報の十分性を評価し、必要に応じてカメラの再フレーミングをガイドすることで、視覚障害者の質問応答能力を向上させることができる。
Liu, L., Yang, D., Zhong, S., Tholeti, K. S., Ding, L., Zhang, Y., & Gilpin, L. H. (2024). Right this way: Can VLMs Guide Us to See More to Answer Questions?. Advances in Neural Information Processing Systems, 38.
本研究では、視覚言語モデル(VLM)が、視覚的な質問応答(VQA)のシナリオにおいて、情報が不十分な場合に画像をどのように調整するかを示すことができるかどうかを調査する。