Core Concepts
大規模な病理学画像データを用いて、効率的にファウンデーションモデルを訓練する手法を提案する。
Abstract
本論文では、大規模な病理学画像データを用いてファウンデーションモデルを効率的に訓練する手法を提案している。
まず、オンラインパッチング手法を開発し、WSI (Whole Slide Image)からランダムに切り出したパッチを高スループットで読み込むことができるようにした。これにより、オフラインでパッチを前処理する必要がなくなり、柔軟な実験設定が可能になった。
次に、TCGA (The Cancer Genome Atlas)データセットを用いて、DINO and DINOv2のセルフ教師あり学習アルゴリズムでViTモデルを訓練した。ImageNetから初期化したモデルを微調整することで、効率的な収束が可能であることを示した。また、複数の倍率のパッチを混合して訓練することで、倍率に頑健なモデルが得られることを示した。
さらに、TCGAデータセットの規模を変えて実験を行い、データサイズの増加に伴う性能向上を確認した。一方で、モデルサイズを大きくしても性能向上は限定的であり、TCGAデータセットの多様性が不足していることが示唆された。
最後に、ファウンデーションモデルの評価を容易にするためのオープンソースフレームワークを開発した。このフレームワークを用いることで、異なるモデルの公平な比較が可能になる。
Stats
WSIの数が増えるほど、ファウンデーションモデルの性能が向上する。
TCGAデータセットの1%のWSIを使った場合でも、十分な性能が得られる。
TCGAデータセットの30%のWSIを使った場合と、全てのWSIを使った場合の性能はほぼ同等である。
Quotes
"オンラインパッチング手法を開発し、WSI (Whole Slide Image)からランダムに切り出したパッチを高スループットで読み込むことができるようにした。"
"ImageNetから初期化したモデルを微調整することで、効率的な収束が可能である。"
"複数の倍率のパッチを混合して訓練することで、倍率に頑健なモデルが得られる。"