Der Artikel befasst sich mit dem Thema der Datensatzverdichtung, bei der ein großer Datensatz in einen kleineren synthetischen Datensatz umgewandelt wird, ohne dass die Leistung des darauf trainierten Modells leidet.
Die Autoren stellen fest, dass bisherige Methoden zur Datensatzverdichtung, die auf Trajektorienanpassung basieren, in Situationen mit vielen Samples (hohe IPC) an Effektivität verlieren. Dies liegt daran, dass diese Methoden darauf ausgerichtet sind, leichte Muster zu generieren, die für kleine Datensätze geeignet sind, aber bei größeren Datensätzen nicht mehr ausreichen.
Um dieses Problem zu lösen, schlagen die Autoren einen Ansatz vor, bei dem die Schwierigkeit der generierten Muster an die Größe des synthetischen Datensatzes angepasst wird. Dafür kontrollieren sie den Schwierigkeitsgrad der Muster, indem sie den Bereich der Trajektorien, die abgeglichen werden, einschränken. Außerdem führen sie eine sequenzielle Generierung ein, bei der zunächst leichte und dann zunehmend schwierigere Muster gelernt werden.
Durch diese Verbesserungen können die Autoren erstmals eine verlustfreie Datensatzverdichtung erreichen, bei der die Leistung des Modells auf den verdichteten Datensätzen der auf dem Originaldatensatz entspricht. Dies wird auf CIFAR-10, CIFAR-100 und Tiny ImageNet demonstriert.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Ziyao Guo,Ka... ב- arxiv.org 03-19-2024
https://arxiv.org/pdf/2310.05773.pdfשאלות מעמיקות