toplogo
Giriş Yap

SATDAUG - Ein ausgewogener und erweiterter Datensatz zur Erkennung von selbst-eingestandener technischer Schuld


Temel Kavramlar
Um die Herausforderungen des Klassenmissverhältnisses in bestehenden Datensätzen zur Erkennung und Kategorisierung von selbst-eingestandener technischer Schuld (SATD) anzugehen, stellen wir den SATDAUG-Datensatz vor - eine erweiterte und ausgewogene Version bestehender SATD-Datensätze.
Özet

Der Artikel präsentiert den SATDAUG-Datensatz, eine erweiterte und ausgewogene Version bestehender Datensätze zur Erkennung und Kategorisierung von selbst-eingestandener technischer Schuld (SATD).

Der Hintergrund ist, dass bisherige SATD-Datensätze, die aus verschiedenen Softwareentwicklungsartefakten wie Quellcode-Kommentaren, Issue-Trackern, Pull-Requests und Commit-Nachrichten extrahiert wurden, unter einem starken Klassenmissverhältnis leiden. Dies erschwert insbesondere die Kategorisierung spezifischer SATD-Typen.

Um diese Einschränkung zu adressieren, wurde der SATDAUG-Datensatz durch Anwendung einer Textaugmentierungstechnik (AugGPT) auf den ursprünglichen Datensatz von Li et al. erstellt. Dadurch wurde die Anzahl der Instanzen für unterrepräsentierte SATD-Typen erhöht, um eine ausgewogenere Verteilung zu erreichen.

Die Autoren zeigen, dass der SATDAUG-Datensatz zu deutlich verbesserten Ergebnissen bei der Identifizierung und Kategorisierung von SATD führt, im Vergleich zu Modellen, die auf den ursprünglichen, unausgewogenen Datensätzen trainiert wurden.

Darüber hinaus diskutieren die Autoren weitere Verbesserungsmöglichkeiten des Datensatzes, mögliche Forschungsanwendungen sowie Einschränkungen und Herausforderungen bei der Nutzung.

edit_icon

Customize Summary

edit_icon

Rewrite with AI

edit_icon

Generate Citations

translate_icon

Translate Source

visual_icon

Generate MindMap

visit_icon

Visit Source

İstatistikler
Die Anzahl der "Code/Design-Schuld"-Instanzen beträgt 522 in allen Artefakten. Die Anzahl der "Dokumentationsschuld"-Instanzen wurde von 54 auf 490 in den Quellcode-Kommentaren erhöht. Die Anzahl der "Testschuld"-Instanzen wurde von 58 auf 522 in den Commit-Nachrichten erhöht. Die Anzahl der "Anforderungsschuld"-Instanzen wurde von 27 auf 513 in den Commit-Nachrichten erhöht.
Alıntılar
"Um die Herausforderungen des Klassenmissverhältnisses in bestehenden Datensätzen zur Erkennung und Kategorisierung von selbst-eingestandener technischer Schuld (SATD) anzugehen, stellen wir den SATDAUG-Datensatz vor - eine erweiterte und ausgewogene Version bestehender SATD-Datensätze." "Der SATDAUG-Datensatz wurde durch Anwendung einer Textaugmentierungstechnik (AugGPT) auf den ursprünglichen Datensatz von Li et al. erstellt, um die Anzahl der Instanzen für unterrepräsentierte SATD-Typen zu erhöhen und eine ausgewogenere Verteilung zu erreichen."

Daha Derin Sorular

Wie könnte man die Qualität der Textaugmentierung weiter verbessern, um die Robustheit und Generalisierungsfähigkeit der Modelle zu erhöhen?

Um die Qualität der Textaugmentierung zu verbessern und die Robustheit sowie die Generalisierungsfähigkeit der Modelle zu erhöhen, könnten mehrere Ansätze verfolgt werden: Diversifizierung der generierten Texte: Statt sich nur auf semantisch ähnliche Paraphrasen zu konzentrieren, sollte die Textvielfalt in den generierten Paraphrasen erhöht werden. Dies würde dazu beitragen, dass die Modelle verschiedene Formulierungen und Ausdrücke kennenlernen und somit besser generalisieren können. Berücksichtigung von Textvariationen: Es wäre wichtig, sicherzustellen, dass die generierten Paraphrasen nicht nur semantisch ähnlich sind, sondern auch verschiedene Variationen des Textes enthalten. Dies würde dazu beitragen, dass die Modelle flexibler werden und besser auf unterschiedliche Eingaben reagieren können. Evaluierung der Ähnlichkeit: Durch die Verwendung von Techniken wie Cosine Similarity mit BERT Embeddings könnte die Ähnlichkeit zwischen den originalen und augmentierten Texten gemessen werden. Eine hohe Ähnlichkeitsbewertung würde darauf hindeuten, dass die generierten Texte treu und kompakt sind und dem Originaltext nahekommen. Re-Augmentierung und Überprüfung: Es könnte untersucht werden, wie sich eine erneute Augmentierung auf die Robustheit und Generalisierungsfähigkeit der Modelle auswirkt. Durch die Variation der Grade der Re-Augmentierung und die Bewertung der Auswirkungen auf die Leistung der Modelle könnten Erkenntnisse gewonnen werden, wie die Qualität der Textaugmentierung weiter verbessert werden kann.

Welche zusätzlichen Artefakte oder Datenquellen könnten in Zukunft in den SATDAUG-Datensatz aufgenommen werden, um die Abdeckung und Vielfalt weiter zu erhöhen?

Um die Abdeckung und Vielfalt des SATDAUG-Datensatzes weiter zu erhöhen, könnten zusätzliche Artefakte oder Datenquellen in Betracht gezogen werden: User Stories und Anforderungsdokumente: Durch die Einbeziehung von User Stories und Anforderungsdokumenten könnten Entwickler mehr Einblicke in die zugrunde liegenden Anforderungen erhalten, die zu technischen Schulden führen. Dies würde die Vielfalt der Daten erhöhen und die Identifizierung von SATD verbessern. Code Reviews und Pair Programming Sessions: Daten aus Code-Reviews und Pair Programming Sessions könnten wertvolle Informationen über potenzielle technische Schulden liefern, die während des Entwicklungsprozesses entstehen. Die Integration dieser Datenquellen würde die Vielfalt der im Datensatz enthaltenen Informationen erweitern. Architekturdokumentation: Die Einbeziehung von Architekturdokumentation könnte dazu beitragen, technische Schulden zu identifizieren, die sich aus Architekturproblemen ergeben. Dies würde eine umfassendere Sicht auf die verschiedenen Arten von technischen Schulden ermöglichen und die Abdeckung im Datensatz verbessern. Testfälle und Testberichte: Durch die Integration von Testfällen und Testberichten könnten potenzielle technische Schulden identifiziert werden, die sich auf die Testbarkeit und Wartbarkeit des Codes auswirken. Dies würde die Vielfalt der im Datensatz enthaltenen Informationen erweitern und die Genauigkeit der SATD-Erkennung verbessern.

Wie könnte man die Auswirkungen von Fehlern in der ursprünglichen manuellen Datenbeschriftung auf den SATDAUG-Datensatz weiter untersuchen und minimieren?

Um die Auswirkungen von Fehlern in der ursprünglichen manuellen Datenbeschriftung auf den SATDAUG-Datensatz weiter zu untersuchen und zu minimieren, könnten folgende Schritte unternommen werden: Manuelle Überprüfung: Eine manuelle Überprüfung einer Stichprobe der Daten im SATDAUG-Datensatz könnte durchgeführt werden, um die Genauigkeit der Beschriftung zu validieren. Dies würde helfen, potenzielle Fehler zu identifizieren und zu korrigieren. Crowdsourcing: Durch die Einbindung von Crowdsourcing-Plattformen könnten externe Prüfer hinzugezogen werden, um die Beschriftungsgenauigkeit zu überprüfen. Dies würde eine unabhängige Validierung der Daten ermöglichen und potenzielle Fehler aufdecken. Konsistenzprüfungen: Es könnten Konsistenzprüfungen zwischen den verschiedenen Beschriftungen durchgeführt werden, um Inkonsistenzen zu identifizieren und zu beheben. Dies würde sicherstellen, dass die Daten im SATDAUG-Datensatz konsistent und korrekt beschriftet sind. Feedbackschleifen: Durch die Implementierung von Feedbackschleifen könnten Fehler, die während der Modelltrainings auftreten, erkannt und korrigiert werden. Dies würde dazu beitragen, die Qualität der Beschriftung im SATDAUG-Datensatz kontinuierlich zu verbessern und potenzielle Fehler zu minimieren.
0
star