データ品質は機械学習(ML)モデルのパフォーマンスと堅牢性に重要であり、実世界のデータには誤ラベリング、外れ値、十分なカバレッジ不足などが含まれる。これらの「ハード」サンプルはMLモデルのパフォーマンスを著しく低下させ、実用的なアプリケーションでのML採用を妨げる可能性がある。現在、データ品質向上に関心が高まっており、Hardness Characterization Methods(HCMs)が開発されている。HCMsは、学習可能性やMLタスクへの有用性に基づいて各サンプルにスコアを割り当て、"ハード"サンプルを特定することを容易にする。本稿では、異なるHCMsが直面している問題や提案された解決策に焦点を当てている。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Nabeel Seeda... في arxiv.org 03-08-2024
https://arxiv.org/pdf/2403.04551.pdfاستفسارات أعمق