Die Identifizierung und Bewertung von "schwierigen" Proben ist entscheidend für die Entwicklung leistungsstarker KI-Modelle.