Conceptos Básicos
特定のトレーニングデータセットサイズを考慮して、機械学習分類モデルのパフォーマンスを予測するアルゴリズムが提案されました。
Resumen
この論文は、各クラスごとのトレーニング例の数を考慮し、全体のトレーニング例だけでなく、機械学習分類モデルのパフォーマンスを予測する問題に焦点を当てています。異なるクラス間の分布がモデルパフォーマンスに与える影響を詳しく調査する方法が開発されました。さらに、異なるドメインから関連する文献が紹介され、実験結果や理論的予測が提示されています。これらの情報から、特定のアルゴリズムが提案され、CIFAR10およびEMNISTデータセットで適用されました。また、異なる回帰関数(Arctan、Logarithmic、Algebraic Root)による推定とその結果も示されています。
Estadísticas
本論文は2024年3月12日に公開されました。
CIFAR10およびEMNISTデータセットで提案されたアルゴリズムが適用されました。
CIFAR10データセットは50000枚のトレーニング画像と10000枚のテスト画像から成ります。
EMNISTデータセットは47種類の文字から成ります。
モバイルネットV3大規模モデルが使用されました。
Citas
"Deep learning scaling is predictable, empirically." - J. Hestness et al.
"How much more data do I need? estimating requirements for downstream tasks." - R. Mahmood et al.
"How much data is needed to train a medical image deep learning system to achieve necessary high accuracy?" - J. Cho et al.