Die Studie präsentiert ein neuartiges Multi-Agenten-Framework namens LCG, das verschiedene Softwareentwicklungsprozessmodelle emuliert, um die Qualität und Konsistenz von auf Large Language Models basierender Codegenerierung zu verbessern.
LCG umfasst Agenten, die verschiedene Rollen wie Anforderungsingenieur, Architekt, Entwickler, Tester und Scrum-Master übernehmen und in Anlehnung an die jeweiligen Prozessmodelle zusammenarbeiten. Durch den Einsatz von Techniken wie Chain-of-Thought und Prompt-Komposition verfeinern die Agenten kontinuierlich den generierten Code.
Die Evaluation zeigt, dass das LCGScrum-Modell die höchste Genauigkeit (Pass@1) erreicht und im Durchschnitt 15% besser abschneidet als der Baseline-Ansatz GPT. Darüber hinaus ist LCGScrum deutlich stabiler mit einer durchschnittlichen Standardabweichung von nur 1,3% über alle Benchmarks hinweg.
Die Analyse der Auswirkungen einzelner Entwicklungsaktivitäten zeigt, dass das Testen den größten Einfluss auf die funktionale Korrektheit des Codes hat. Das Entfernen des Testens führt zu einem Rückgang der Pass@1-Werte um 17,0% bis 56,1%. Darüber hinaus tragen das Design und die Code-Reviews dazu bei, die Dichte von Codefehlern und Warnungen zu reduzieren und die Zuverlässigkeit durch mehr Ausnahmebehandlung zu verbessern.
Insgesamt unterstreichen die Ergebnisse die Bedeutung der Übernahme von Softwareentwicklungsprozessmodellen, um die Qualität und Konsistenz von auf Large Language Models basierender Codegenerierung zu stärken.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询