Core Concepts
アノテーション不要のAFLocは、多様な病理病変をローカライズするための汎用ビジョン言語事前トレーニングモデルです。
Abstract
現在の深層学習モデルは専門家の注釈に依存しており、オープンな臨床環境で一般化能力が欠如している。
AFLocは画像アノテーションに依存せず、豊富な画像特徴と医学的概念を包括的に整列させることで、異なる表現や未知の病理を適応させる。
CXR画像でAFLocのコンセプトを実証し、11種類の胸部病変において6つの最先端手法を上回り、5つの異なる病理を正確に特定。
AFLocは視神経乳頭写真でも一般化能力を示し、複雑な臨床環境で有用性を強調。
Image Encoder
ResNet-50が使用されており、浅い特徴、深い特徴、グローバル特徴が抽出される。
Text Encoder
BioClinicalBERTが使用されており、単語レベルから報告書レベルまで3つの埋め込みレベルが抽出される。
Multi-level semantic alignment
画像とテキスト間で局所的およびグローバルな意味合わせが行われる。
Pathological lesions localization pipeline
テキストプロンプトに基づいてパスウェイ生成され、類似度マップからパスウェイ領域が生成される。
Quotes
"AFLocは豊富な画像特徴と医学的概念を包括的に整列させます。"
"AFLocは11種類の胸部病変における正確なローカライゼーションを達成しました。"