核心概念
超音波画像を用いた前立腺がんの検出において、ビジョントランスフォーマーとマルチスケール学習の組み合わせが性能向上に寄与する。
要約
本研究の目的は、前立腺がんの超音波画像分類におけるビジョントランスフォーマーの有効性を検討することである。
主な内容は以下の通り:
- データ収集と前処理
- 693人の患者から得られた6,607個の前立腺生検コアサンプルを使用
- 各コアから55個の領域関心領域(ROI)を抽出し、256x256ピクセルにリサイズ
- 自己教師あり学習手法であるVICRegを用いてモデルの事前学習を実施
- ROI単位の分類
- 標準的なビジョントランスフォーマー(ViT)、コンパクトな畳み込みトランスフォーマー(CCT)、ピラミッド型ビジョントランスフォーマー(PvT)の3つのアーキテクチャを評価
- 基準となるResNet18モデルと比較したところ、トランスフォーマーベースのモデルはROI単位の分類では劣る傾向
- マルチスケール分類
- ROI単位の特徴をBERTモデルに入力し、コア全体の予測を行う手法を提案
- さらに、ROI単位とコア単位の2つの損失関数を組み合わせるマルチ目的学習手法を導入
- マルチ目的学習を用いたResNet18+BERTモデルが最も高い性能を示し、AUROC 77.9%、感度75.9%、特異度66.3%を達成
結論として、小規模データセットにおいては、畳み込みベースの特徴表現がトランスフォーマーよりも優れており、マルチ目的学習の導入が性能向上に寄与することが示された。
統計
前立腺がんの検出において、マルチ目的学習を用いたResNet18+BERTモデルは、AUROC 77.9%、感度75.9%、特異度66.3%を達成した。