MM-SHAPは、視覚言語モデルの各モダリティ(視覚、言語)の予測への寄与度を性能非依存的に定量化するメトリック。
視覚言語モデルの性能を向上させるために、質問を言い換えて視覚情報を補強することで、過不足のない質問を生成し、モデルの正答率を高める。
視線情報を活用することで、日本語の質問に含まれる指示語や省略表現の曖昧さを解消し、正確な回答を生成することができる。