Abstract
自己監督学習は組織学画像分析に非常に有望であり、多くのアプローチが患者-スライド-パッチの階層構造を活用して表現を向上させている。
本論文では、自然言語情報と階層的ビジュアル表現の組み合わせが医用画像タスクのための豊かな表現学習にどのように影響するかを探求している。
新しい言語連動型自己監督学習フレームワーク「HLSS」を提案し、その性能をOpenSRHおよびTCGAデータセットで示している。
HLSSは、3つの階層で表現を学習するため、医用画像分類タスクで最先端の性能を達成している。
Introduction
自己監督学習は視覚タスクにおいて優れた成果を示しており、医用画像タスクでも成功を収めている。
医用画像には固有のイメージングパターンが含まれており、これらのパターンを理解することが重要である。
Methodology
HLSSアプローチは、階層的なビジョンコントラスト目的とテキスト対ビジョンアラインメント目的から成り立っている。
Experiments
OpenSRHデータセットではHLSSが従来手法を凌駕し、TCGAデータセットでも最先端の結果を達成している。
Results Comparison
OpenSRHデータセットではHLSSがすべてのタスクで従来手法よりも優れた結果を示している。
Ablations
SSL目的やテキスト統合方法など異なる要素について行った実験からHLSSフレームワークの性能向上要因が明らかになっている。
Stats
自己監督学習(SSL)は視覚タスク[13,5]で驚異的な成果を示しています。医用画像タスクへの拡張も高度に成功しています[17]。医用画像には固有のイメージングパターンが含まれます。臨床研究では、単一患者から複数ギガピクセル範囲の画像スライドがサンプリングされ、その後スライド内部または他のスライドから小さなサブ領域(パッチ)が分析されます。これにより捉えられたデータ内に患者・スライド・パッチ階層が作成されます[17,6]。