Dieser Artikel bietet eine umfassende Übersicht über Metriken zur Bewertung der Daten-Bereitschaft für KI-Anwendungen. Er untersucht mehr als 120 Veröffentlichungen, um eine Taxonomie von Metriken für strukturierte und unstrukturierte Datensätze zu erstellen.
Die Studie definiert verschiedene Dimensionen der Daten-Bereitschaft, darunter Vollständigkeit, Ausreißer, Fehlkennzeichnungen, Duplikate, Merkmals-Relevanz, Klassen-Ungleichgewicht, Diskriminierung und Datenschutz. Für jede Dimension werden relevante Metriken und Bewertungsmechanismen aus der Literatur vorgestellt.
Darüber hinaus werden Ansätze zur Bewertung der Daten-Bereitschaft für KI-Anwendungen diskutiert, wie z.B. Daten-Qualitäts-Toolkits, Daten-Bereitschafts-Berichte und Frameworks zur Kategorisierung von Daten-Reife. Diese Erkenntnisse tragen dazu bei, ein umfassendes Verständnis der Schlüsselfaktoren für die Vorbereitung von Daten für den Einsatz in KI-Systemen zu entwickeln.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Kaveen Hinid... lúc arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.05779.pdfYêu cầu sâu hơn