Der Artikel beginnt mit einer Einführung in die Bedeutung von Stack Overflow als wichtige Wissensquelle für Softwareentwickler und die Notwendigkeit, geeignete Repräsentationsmodelle für die Beiträge zu entwickeln.
Es werden zwei bestehende, speziell für Stack Overflow entwickelte Repräsentationsmodelle (Post2Vec und BERTOverflow) sowie neun weitere transformer-basierte Sprachmodelle aus dem allgemeinen und dem Software-Entwicklungsbereich untersucht. Die Modelle werden in drei Downstream-Aufgaben (Tag-Empfehlung, API-Empfehlung und Verwandtschaftsvorhersage) evaluiert.
Die Ergebnisse zeigen, dass die bestehenden Stack Overflow-spezifischen Modelle die State-of-the-Art-Leistung nicht verbessern können. Keines der untersuchten Modelle ist in allen Aufgaben am besten. Daher schlagen die Autoren SOBERT vor, ein verbessertes Modell, das durch Weitertraining auf Stack Overflow-Daten entsteht. SOBERT erzielt konsistent die besten Ergebnisse in allen drei Downstream-Aufgaben und übertrifft die bisherigen Spitzenleistungen deutlich.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Junda He,Zho... om arxiv.org 04-10-2024
https://arxiv.org/pdf/2303.06853.pdfDiepere vragen