Core Concepts
病理学者による、病理学者のための基礎モデルの開発とその重要性を強調する。
Abstract
概要:
人工知能が多くの病理学的タスクで有望な結果を示す中、一部の稀な疾患への対応や汎化は課題となっている。
ラベル付きデータが不足している場合、未ラベルデータから知識を抽出し、基礎モデルを構築することが重要。
研究では、半自動化されたデータキュレーションと病理学者のドメイン知識を組み合わせて、デジタル病理学全スライド画像用の最先端基礎モデルを拡張している。
導入:
組織診断や生物医学研究における病理学は中心的な役割を果たす。
人工知能による多くの証明済みコンセプトやアプリケーションがあるものの、一般化と堅牢性はまだ課題である。
データキュレーション:
133,998枚のスライドから成る多様なデータセットをキュレートし、異なる固定法や染色法、スキャナー種別から得られた1.2十億枚の画像パッチを含む。
データセットにはH&E(68%)、IHC(15%)、その他(17%)など3つの広範な染色カテゴリが含まれている。
スライドグルーピングと組織クラスタリング:
全てのスライドは31グループに割り当てられ、均等にパッチサンプリングされている。
個々の組織パッチはコンピュータビジョン画像特徴と病理学者専門家によってクラスタリングされている。
データ拡張:
DINOv2フレームワーク内で視野生成プロセス中に染色およびスキャナー色プロファイルを転送・増強している。
Stats
著者らは1.2十億枚もの画像パッチから成る多様なデータセットを使用しています。