Der Artikel präsentiert den SATDAUG-Datensatz, eine erweiterte und ausgewogene Version bestehender Datensätze zur Erkennung und Kategorisierung von selbst-eingestandener technischer Schuld (SATD).
Der Hintergrund ist, dass bisherige SATD-Datensätze, die aus verschiedenen Softwareentwicklungsartefakten wie Quellcode-Kommentaren, Issue-Trackern, Pull-Requests und Commit-Nachrichten extrahiert wurden, unter einem starken Klassenmissverhältnis leiden. Dies erschwert insbesondere die Kategorisierung spezifischer SATD-Typen.
Um diese Einschränkung zu adressieren, wurde der SATDAUG-Datensatz durch Anwendung einer Textaugmentierungstechnik (AugGPT) auf den ursprünglichen Datensatz von Li et al. erstellt. Dadurch wurde die Anzahl der Instanzen für unterrepräsentierte SATD-Typen erhöht, um eine ausgewogenere Verteilung zu erreichen.
Die Autoren zeigen, dass der SATDAUG-Datensatz zu deutlich verbesserten Ergebnissen bei der Identifizierung und Kategorisierung von SATD führt, im Vergleich zu Modellen, die auf den ursprünglichen, unausgewogenen Datensätzen trainiert wurden.
Darüber hinaus diskutieren die Autoren weitere Verbesserungsmöglichkeiten des Datensatzes, mögliche Forschungsanwendungen sowie Einschränkungen und Herausforderungen bei der Nutzung.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Edi Sutoyo,A... a las arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07690.pdfConsultas más profundas