Core Concepts
ドメイン適応型のビジョンおよび言語モデルを融合することで、医療画像に対する質問応答タスクにおいて優れたパフォーマンスを実現する。
Abstract
本論文では、医療画像に対する質問応答(Medical Visual Question Answering: MedVQA)タスクのために、ドメイン適応型のビジョンおよび言語モデルを融合したモデルを提案している。
まず、ビジョンエンコーダとして、バイオメディカル分野で優れたパフォーマンスを示すBiomedCLIP-ViTを使用する。言語モデルとしては、放射線分野で高い性能を発揮するRadBloomz-7bを採用する。
提案モデルの訓練は3段階で行われる。第1段階では、医療画像キャプション生成タスクを通じて、ビジョンエンコーダと言語モデルの整合性を図る。第2段階では、一般的な医療VQAデータセットを使用して、医療分野の知識を獲得する。最後に第3段階では、MedVQAベンチマークデータセットを使用して、最終的なファインチューニングを行う。
この訓練アプローチにより、提案モデルはSLAKE 1.0ベンチマークにおいて87.5%の高精度を達成し、VQA-RADベンチマークでも優れたパフォーマンスを示した。さらに、一般ドメインの言語モデルを使用した場合と比較しても、ドメイン適応型の言語モデルを使用することで大幅な性能向上が確認された。
このように、ドメイン適応型のビジョンおよび言語モデルを融合することで、医療画像に対する質問応答タスクにおいて優れた結果を得ることができる。
Stats
医療画像に対する質問応答タスクにおいて、提案モデルはSLAKE 1.0ベンチマークで87.5%の精度を達成した。
同様に、VQA-RADベンチマークでも73.2%の精度を示した。
一般ドメインの言語モデルを使用した場合と比較して、ドメイン適応型の言語モデルを使用することで、SLAKE 1.0で7.5%、VQA-RADで4.9%の精度向上が確認された。
Quotes
"Vision-language models, while effective in general domains and showing strong performance in diverse multi-modal applications like visual question-answering (VQA), struggle to maintain the same level of effectiveness in more specialized domains, e.g., medical."
"Our proposed training approach for the trainable parameters consists of three stages: medical concept alignment through the image-captioning task using PMC-OA dataset, adaptation to the general medical VQA task using the PMC-VQA dataset, and fine-tuning on the radiology task specific training dataset, such as VQA-RAD and SLAKE 1.0-English."
"Our model outperformed existing models from published works on the SLAKE 1.0 benchmark, achieving an impressive overall accuracy of 87.5%. Furthermore, our model demonstrated strong performance on the VQA-RAD benchmark, highlighting its effectiveness compared to other published models."