本研究では、異常検出のための多画像視覚質問応答のベンチマークを構築しました。異常検出の結果を言語モデルで解釈することで、臨床医に対してより明確な説明を提供することができます。
具体的には以下の取り組みを行いました:
異常検出のための多画像視覚質問応答のデータセットを構築しました。医療専門家によって、様々な異常に関する質問と回答が注釈されています。
多様な特徴融合戦略を組み込んだ多画像視覚質問応答のフレームワークを提案しました。また、知識関連の視覚特徴を抽出するためのKnowledge Q-Formerモジュールを開発しました。
実験の結果、提案したKnowledge Q-Formerモジュールが視覚質問応答タスクの性能を大幅に向上させることを示しました。また、異常マップを入力に加えることで、未知の異常の検出精度が向上することも明らかになりました。
本研究の成果は、異常検出の結果を臨床医に分かりやすく説明する新しい手法を提示するものです。これにより、医療現場での意思決定をより支援できると期待されます。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문