本論文では、大規模な病理学画像データを用いてファウンデーションモデルを効率的に訓練する手法を提案している。
まず、オンラインパッチング手法を開発し、WSI (Whole Slide Image)からランダムに切り出したパッチを高スループットで読み込むことができるようにした。これにより、オフラインでパッチを前処理する必要がなくなり、柔軟な実験設定が可能になった。
次に、TCGA (The Cancer Genome Atlas)データセットを用いて、DINO and DINOv2のセルフ教師あり学習アルゴリズムでViTモデルを訓練した。ImageNetから初期化したモデルを微調整することで、効率的な収束が可能であることを示した。また、複数の倍率のパッチを混合して訓練することで、倍率に頑健なモデルが得られることを示した。
さらに、TCGAデータセットの規模を変えて実験を行い、データサイズの増加に伴う性能向上を確認した。一方で、モデルサイズを大きくしても性能向上は限定的であり、TCGAデータセットの多様性が不足していることが示唆された。
最後に、ファウンデーションモデルの評価を容易にするためのオープンソースフレームワークを開発した。このフレームワークを用いることで、異なるモデルの公平な比較が可能になる。
Towards Large-Scale Training of Pathology Foundation Models