Die Studie untersucht die Leistungsfähigkeit großer Sprachmodelle (LLMs) bei der Lösung von Fahrzeugroutingproblemen (VRPs) durch die Generierung von Python-Code aus natürlichsprachlichen Aufgabenbeschreibungen.
Zunächst wird ein Datensatz mit 21 Varianten von VRPs erstellt, um die Leistung von LLMs zu evaluieren. Es werden vier grundlegende Prompt-Paradigmen untersucht, wobei sich das direkte Einspeisen natürlicher Sprache in LLMs als am effektivsten erweist. GPT-4 erreicht dabei 56% Machbarkeit, 40% Optimalität und 53% Effizienz.
Um die Leistung der LLMs weiter zu verbessern, wird ein Selbstreflexionsrahmen vorgeschlagen, der LLMs dazu bringt, Lösungen durch Selbstdebuggen und Selbstverifizierung zu korrigieren. Dieser Rahmen führt bei GPT-4 zu einer Steigerung von 16% bei der Machbarkeit, 7% bei der Optimalität und 15% bei der Effizienz.
Darüber hinaus wird untersucht, wie sich das Weglassen bestimmter Details in den Aufgabenbeschreibungen auf die Leistung von GPT-4 auswirkt. Die Ergebnisse zeigen, dass solche Auslassungen zu einem deutlichen Leistungsrückgang führen. Schließlich wird ein Mechanismus vorgestellt, der LLMs dabei unterstützt, fehlende Details in den Aufgabenbeschreibungen zu identifizieren und zu ergänzen.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Zhehui Huang... a las arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10795.pdfConsultas más profundas