核心概念
WSIから直接遺伝子発現プロファイルを予測するための深層回帰モデルの設計と評価に関する重要な知見を提供する。単一のモデルで全20,530遺伝子を同時に回帰することが、計算効率的かつ強力なベースラインであることを示す。
要約
本研究は、ルーチンで利用可能な H&E 染色WSIから遺伝子発現プロファイルを予測するための深層回帰モデルの設計と評価に取り組んでいる。
主な知見は以下の通り:
-
病理学特化型のUNIフィーチャー抽出器は、一般的なResNet-INよりも優れた性能を示す。
-
UNIフィーチャーを用いた回帰モデルは、TCGA-BRCAデータセットで4,927個の遺伝子を0.4以上のPearson相関で予測でき、PAM50遺伝子では平均0.562の相関を達成する。
-
Direct-ABMILとContrastiveの2つのモデルが最も良好な性能を示し、いずれも検討に値する。
-
全20,530遺伝子を単一のモデルで同時に回帰することが、計算効率的かつ強力なベースラインである。個別の遺伝子モデルを訓練するのは非効率的である。
-
複数のモデルを組み合わせて予測を行うことで、わずかな性能向上が見られるが、コストに見合わない可能性がある。
統計
WSIから直接予測した遺伝子発現プロファイルと実際の発現プロファイルの間のPearson相関は、TCGA-BRCAで平均0.275、TCGA-HNSCで0.240、TCGA-STADで0.220、TCGA-BLCAで0.260である。
上位1,000遺伝子に着目すると、Pearson相関は TCGA-BRCAで0.550、TCGA-HNSCで0.510、TCGA-STADで0.490、TCGA-BLCAで0.540である。
0.4以上のPearson相関を示す遺伝子数は、TCGA-BRCAで4,927個、TCGA-HNSCで3,987個、TCGA-STADで3,240個、TCGA-BLCAで4,364個である。
引用
"単一のモデルで全20,530遺伝子を同時に回帰することが、計算効率的かつ強力なベースラインである。"
"個別の遺伝子モデルを訓練するのは非効率的である。"
"複数のモデルを組み合わせて予測を行うことで、わずかな性能向上が見られるが、コストに見合わない可能性がある。"