核心概念
AIモデルの性能(F1スコアおよびAUPRCで測定)は、データセット内のマイノリティクラスサンプルとマジョリティクラスサンプルの比率 (𝑟) によって線形に関連付けられる。
要約
AIのパフォーマンスと入力サンプル数の関係性を示す新しい数学的公式
本稿は、AIモデル、特にF1スコアとAUPRCといった性能指標と、データセット内の正例(少数派)と負例(多数派)のサンプル数の比率の関係を解き明かす、新しい数学的公式について論じています。
近年、機械学習とディープラーニングを用いたAIは、タンパク質構造予測や気候モデリングなど、様々な分野で目覚ましい進歩を遂げている。
しかし、AIモデルはしばしば「ブラックボックス」として機能し、入力と出力の関係を正確に定量化することが難しいという課題が残されている。
特に、分類タスクにおいて、データセット内の少数派クラスと多数派クラスのサンプル数の比率は、モデルの性能に大きな影響を与える可能性がある。
従来、データセットの不均衡がモデルの性能にどのように影響するかを記述する正確な数学的定式化は存在せず、モデルの性能とデータセットの不均衡の程度との関係を定量的に分析することは困難であった。
本研究では、323種類のヒト細胞株におけるタンパク質の必須性を予測するために学習させた323個のAIモデルを分析し、モデルの性能(F1スコアおよびAUPRCで測定)が、データセット内の少数派サンプルと多数派サンプルの比率(𝑟)と線形に関連付けられることを発見した。
具体的には、以下の2つの式で表される。
𝐹1 = 𝛼× 𝑟
𝐴𝑈𝑃𝑅𝐶= 𝛽× 𝑟
ここで、𝑟はデータセット内の少数派サンプルと多数派サンプルの比率を表し、𝛼と𝛽はデータセットに依存する定数である。