データ品質は機械学習(ML)モデルのパフォーマンスと堅牢性に重要であり、実世界のデータには誤ラベリング、外れ値、十分なカバレッジ不足などが含まれる。これらの「ハード」サンプルはMLモデルのパフォーマンスを著しく低下させ、実用的なアプリケーションでのML採用を妨げる可能性がある。現在、データ品質向上に関心が高まっており、Hardness Characterization Methods(HCMs)が開発されている。HCMsは、学習可能性やMLタスクへの有用性に基づいて各サンプルにスコアを割り当て、"ハード"サンプルを特定することを容易にする。本稿では、異なるHCMsが直面している問題や提案された解決策に焦点を当てている。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Nabeel Seeda... о arxiv.org 03-08-2024
https://arxiv.org/pdf/2403.04551.pdfГлибші Запити