Core Concepts
大規模データを使わずに、効率的に基盤モデルを事前学習することができる。
Abstract
本論文は、医療分野における効率的な学習手法「データ効率的学習」を提案している。従来の基盤モデルの事前学習では大量のデータを必要としていたが、本手法では少ないデータでも同等の性能を達成できる。
具体的には以下の3つの貢献がある:
31の医療センターから収集した百万規模のデータセット「DataDEL」を提供
少ないデータでも高性能な基盤モデルを学習できる「MedDEL」手法を提案
データ量と性能のトレードオフを評価する新しい指標「NormDEL」を開発
実験の結果、MedDELは元のデータの5%しか使わずに、同等の性能を達成できることを示した。これにより、医療分野における基盤モデルの効率的な学習が可能になる。
Stats
1日あたりの内視鏡検査ビデオの総量は12,756,493 TBに達する
既存の大規模内視鏡データセットの90%以上が不要なデータで構成されている
MedDELを使うと、同等の性能を得るのに必要な計算時間を18,816時間削減できる
Quotes
"大規模データを使えば基盤モデルの性能が向上する"という常識に疑問を呈している
"医療分野におけるデータ効率的学習の研究は十分に行われていない"と指摘している