本研究では、Explicdと呼ばれる新しい枠組みを提案している。Explicdは、大規模言語モデル(LLM)やヒト専門家から医療診断に関する知識を収集し、それらの診断基準を定義する。次に、ビジョン・言語モデル(VLM)を用いて、これらの診断基準と画像の視覚特徴を整合化させる。具体的には、視覚概念トークンを学習し、診断基準のテキストエンベディングとの類似度を最大化することで、視覚特徴と診断基準の整合化を図る。最終的な分類は、各診断基準軸の整合性スコアを統合して行う。
Explicdは5つの医療画像分類ベンチマークで評価され、従来の黒箱モデルや既存の説明可能モデルを上回る性能と説明可能性を示した。具体的には、皮膚病変の分類において、非対称性、境界、色、径といった診断基準軸ごとの視覚特徴との整合性を可視化することで、モデルの判断過程を明示的に示すことができる。また、胸部X線画像の心拡大検出においても、心臓領域に注目していることが確認できる。このように、Explicdは医療AI診断の信頼性と透明性を高める新しいアプローチを提示している。
今後の展望として、より広範な人間知識の取り入れや、視覚概念表現の階層的な精緻化などにより、医療診断の理解と管理に貢献できると期待される。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések