Der Artikel präsentiert den SATDAUG-Datensatz, eine erweiterte und ausgewogene Version bestehender Datensätze zur Erkennung und Kategorisierung von selbst-eingestandener technischer Schuld (SATD).
Der Hintergrund ist, dass bisherige SATD-Datensätze, die aus verschiedenen Softwareentwicklungsartefakten wie Quellcode-Kommentaren, Issue-Trackern, Pull-Requests und Commit-Nachrichten extrahiert wurden, unter einem starken Klassenmissverhältnis leiden. Dies erschwert insbesondere die Kategorisierung spezifischer SATD-Typen.
Um diese Einschränkung zu adressieren, wurde der SATDAUG-Datensatz durch Anwendung einer Textaugmentierungstechnik (AugGPT) auf den ursprünglichen Datensatz von Li et al. erstellt. Dadurch wurde die Anzahl der Instanzen für unterrepräsentierte SATD-Typen erhöht, um eine ausgewogenere Verteilung zu erreichen.
Die Autoren zeigen, dass der SATDAUG-Datensatz zu deutlich verbesserten Ergebnissen bei der Identifizierung und Kategorisierung von SATD führt, im Vergleich zu Modellen, die auf den ursprünglichen, unausgewogenen Datensätzen trainiert wurden.
Darüber hinaus diskutieren die Autoren weitere Verbesserungsmöglichkeiten des Datensatzes, mögliche Forschungsanwendungen sowie Einschränkungen und Herausforderungen bei der Nutzung.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Edi Sutoyo,A... pada arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07690.pdfPertanyaan yang Lebih Dalam