データ品質は機械学習(ML)モデルのパフォーマンスと堅牢性に重要であり、実世界のデータには誤ラベリング、外れ値、十分なカバレッジ不足などが含まれる。これらの「ハード」サンプルはMLモデルのパフォーマンスを著しく低下させ、実用的なアプリケーションでのML採用を妨げる可能性がある。現在、データ品質向上に関心が高まっており、Hardness Characterization Methods(HCMs)が開発されている。HCMsは、学習可能性やMLタスクへの有用性に基づいて各サンプルにスコアを割り当て、"ハード"サンプルを特定することを容易にする。本稿では、異なるHCMsが直面している問題や提案された解決策に焦点を当てている。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Nabeel Seeda... às arxiv.org 03-08-2024
https://arxiv.org/pdf/2403.04551.pdfPerguntas Mais Profundas