Der Artikel beginnt mit einer Einführung in die Bedeutung von Stack Overflow als wichtige Wissensquelle für Softwareentwickler und die Notwendigkeit, geeignete Repräsentationsmodelle für die Beiträge zu entwickeln.
Es werden zwei bestehende, speziell für Stack Overflow entwickelte Repräsentationsmodelle (Post2Vec und BERTOverflow) sowie neun weitere transformer-basierte Sprachmodelle aus dem allgemeinen und dem Software-Entwicklungsbereich untersucht. Die Modelle werden in drei Downstream-Aufgaben (Tag-Empfehlung, API-Empfehlung und Verwandtschaftsvorhersage) evaluiert.
Die Ergebnisse zeigen, dass die bestehenden Stack Overflow-spezifischen Modelle die State-of-the-Art-Leistung nicht verbessern können. Keines der untersuchten Modelle ist in allen Aufgaben am besten. Daher schlagen die Autoren SOBERT vor, ein verbessertes Modell, das durch Weitertraining auf Stack Overflow-Daten entsteht. SOBERT erzielt konsistent die besten Ergebnisse in allen drei Downstream-Aufgaben und übertrifft die bisherigen Spitzenleistungen deutlich.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Junda He,Zho... alle arxiv.org 04-10-2024
https://arxiv.org/pdf/2303.06853.pdfDomande più approfondite