核心概念
医療画像質問応答(Med-VQA)における大規模言語・視覚モデル(LLVM)の幻覚問題を評価するベンチマークを作成し、最新モデルの性能を包括的に分析した。
要約
本研究は、医療画像質問応答(Med-VQA)における大規模言語・視覚モデル(LLVM)の幻覚問題を評価するためのベンチマークを作成した。
- 3つの公開VQAデータセット(PMC-VQA、PathVQA、VQA-RAD)を改変し、以下の3つのシナリオを含むベンチマークを作成した:
- 意味のない質問(FAKE)
- 正解選択肢を「該当なし」(NOTA)に置き換えた問題
- 画像を無関係なものに置き換えた問題(SWAP)
- 最新のLLaVAモデルやGPT-4-turbo-visionモデルなどを評価した結果、以下の知見が得られた:
- NOTA問題が全モデルで最も正答率が低く、現在のLLVMにとって最も大きな課題である
- LLaVA-v1.5-13Bモデルが最も優れており、FAKE問題とSWAP問題でGPT-4-turbo-visionを上回り、また不適切な回答も少ない
- ドメイン特化ファインチューニングは必ずしも幻覚評価の性能向上につながらない
統計
意味のない質問(FAKE)に対するLLaVA-v1.5-13Bモデルの正答率は77.90%
「該当なし」(NOTA)問題に対するLLaVA-v1.5-7Bモデルの正答率は30.40%
画像置換(SWAP)問題に対するLLaVA-v1.5-13Bモデルの正答率は79.71%