Concepts de base
200万枚以上の皮膚疾患画像で学習したマルチモーダル基盤モデルPanDermは、皮膚がんのスクリーニング、病変の変化のモニタリング、転移の予測など、皮膚科の様々な臨床タスクにおいて、専門家レベルの能力を示し、医療AIの進歩に大きく貢献する可能性がある。
Résumé
論文情報
- タイトル:皮膚科向け汎用マルチモーダル基盤モデル
- 著者:Siyuan Yan, Zhen Yu, Clare Primiero, Cristina Vico-Alonso, Zhonghua Wang, Litao Yang, Philipp Tschandl, Ming Hu, Gin Tan, Vincent Tang, Aik Beng Ng, David Powell, Paul Bonnington, Simon See, Monika Janda, Victoria Mar, Harald Kittler, H. Peter Soyer, Zongyuan Ge
- 出版日:2024年10月19日
- 出版物:arXivプレプリント
研究目的
本研究は、皮膚科におけるAIの臨床応用を促進するため、多様な画像モダリティと臨床タスクに対応可能な汎用的なマルチモーダル基盤モデルであるPanDermを開発することを目的とする。
方法
- 11の医療機関から収集した、臨床画像、皮膚鏡画像、全身写真、皮膚病理画像を含む200万枚以上の皮膚疾患画像データセットを用いて、自己教師あり学習によりPanDermを事前学習した。
- 事前学習には、マスクされた画像領域の再構成を学習するMasked Latent Modelingと、画像とテキストのペアから表現学習を行うContrastive Language-Image Pretraining (CLIP) を組み合わせた手法を用いた。
- 皮膚がんのスクリーニング、表現型評価、リスク層別化、腫瘍性および炎症性皮膚疾患の診断、皮膚病変のセグメンテーション、変化のモニタリング、転移の予測と予後など、28のデータセットを用いてPanDermの性能を評価した。
- 実際の臨床現場を想定した3つの読影試験を実施し、PanDermの臨床的有用性を評価した。
結果
- PanDermは、評価したすべてのタスクにおいて、最先端の性能を達成し、既存のモデルを上回る結果を示した。
- 特に、ラベル付けされたデータが少ない場合でも、高い性能を発揮することが確認された。
- 実際の臨床現場を想定した読影試験においても、PanDermは皮膚科医の診断精度を上回る、あるいは、診断を支援する上で有用であることが示された。
結論
- PanDermは、皮膚科における様々な臨床タスクにおいて、専門家レベルの能力を示し、医療AIの進歩に大きく貢献する可能性がある。
- 今後、PanDermは、皮膚疾患の管理を向上させ、他の診療科におけるマルチモーダル基盤モデル開発のモデルケースとなることが期待される。
意義
本研究は、大規模なマルチモーダルデータセットを用いた自己教師あり学習により、皮膚科における様々な臨床タスクに対応可能な汎用的なAIモデルを開発できることを示した点で意義深い。
限界と今後の研究
- 本研究では、主に皮膚がんに関連するタスクを対象としてPanDermの評価を行った。今後は、より広範な皮膚疾患に対するPanDermの性能評価を行う必要がある。
- PanDermの臨床応用に向けて、倫理的な側面、安全性、説明責任などを考慮した開発を進める必要がある。
Stats
PanDermは、11の医療機関から収集した200万枚以上の皮膚疾患画像データセットで学習された。
データセットは、臨床画像、皮膚鏡画像、全身写真、皮膚病理画像の4つのモダリティを含む。
PanDermは、28のベンチマークデータセットで評価され、皮膚がんのスクリーニング、表現型評価、リスク層別化、腫瘍性および炎症性皮膚疾患の診断、皮膚病変のセグメンテーション、変化のモニタリング、転移の予測と予後など、様々なタスクにおいて最先端の性能を達成した。
早期メラノーマ検出の読影試験では、PanDermはメラノーマの識別において、人間の読影者よりも平均10.2%高い精度を示した。
皮膚病変の変化検出において、PanDermは2つのデータセット(SDDI1とSDDI2)でそれぞれ4.3%と3.7%のAUROC向上を示した。
メラノーマの転移予測では、PanDermはAUROC 0.964を達成し、2番目に優れたモデルよりも2.0%高かった。
メラノーマの予後予測では、PanDermのリスク層別化に基づいて患者を層別化したところ、高リスク群は低リスク群に比べて有意に無再発生期間(RFI)が短かった(HR: 5.63, 95% CI: 2.87-11.02, P < 0.001)。
多変量Cox回帰分析の結果、PanDermの転移予測スコアは、検討したすべての変数の中でRFIの最も強力な予測因子であった。
PanDermは、3年、5年、7年後のAUCがそれぞれ0.950、0.931、0.909であり、複数の臨床変数を用いた場合よりもそれぞれ6.8%、2.9%、5.0%高かった。
皮膚病変のセグメンテーションにおいて、PanDermは2つのベンチマークデータセット(ISIC2018とHAM10000)において、それぞれ3.1%と1.9%のJaccard指数(JAC)で2番目に優れたモデルを上回った。
人工知能との共同作業に関する読影試験では、PanDermのサポートにより、人間の読影者の全体的な診断精度は0.69から0.80へと有意に向上した(P < 0.001)。
経験の浅い読影者は、経験豊富な読影者よりもPanDermのサポートから大きな恩恵を受けた。
メラノーマに関しては、PanDermは人間の読影者の精度を0.69から0.83へと向上させた(P < 0.001)。