核心概念
MLモデルのパフォーマンス向上に不可欠な「ハード」サンプルを特定するための方法とツールが重要である。
要約
データ品質は機械学習(ML)モデルのパフォーマンスと堅牢性に重要であり、実世界のデータには誤ラベリング、外れ値、十分なカバレッジ不足などが含まれる。これらの「ハード」サンプルはMLモデルのパフォーマンスを著しく低下させ、実用的なアプリケーションでのML採用を妨げる可能性がある。現在、データ品質向上に関心が高まっており、Hardness Characterization Methods(HCMs)が開発されている。HCMsは、学習可能性やMLタスクへの有用性に基づいて各サンプルにスコアを割り当て、"ハード"サンプルを特定することを容易にする。本稿では、異なるHCMsが直面している問題や提案された解決策に焦点を当てている。
統計
研究対象:13種類のHCMs
評価セットアップ数:14,000以上
引用
"Characterizing samples that are difficult to learn from is crucial to developing highly performant ML models."
"Our findings highlight the need for more comprehensive HCM evaluation, while we hope our hardness taxonomy and toolkit will advance the principled evaluation and uptake of data-centric AI methods."