Die Studie untersucht die Leistungsfähigkeit großer Sprachmodelle (LLMs) bei der Lösung von Fahrzeugroutingproblemen (VRPs) durch die Generierung von Python-Code aus natürlichsprachlichen Aufgabenbeschreibungen.
Zunächst wird ein Datensatz mit 21 Varianten von VRPs erstellt, um die Leistung von LLMs zu evaluieren. Es werden vier grundlegende Prompt-Paradigmen untersucht, wobei sich das direkte Einspeisen natürlicher Sprache in LLMs als am effektivsten erweist. GPT-4 erreicht dabei 56% Machbarkeit, 40% Optimalität und 53% Effizienz.
Um die Leistung der LLMs weiter zu verbessern, wird ein Selbstreflexionsrahmen vorgeschlagen, der LLMs dazu bringt, Lösungen durch Selbstdebuggen und Selbstverifizierung zu korrigieren. Dieser Rahmen führt bei GPT-4 zu einer Steigerung von 16% bei der Machbarkeit, 7% bei der Optimalität und 15% bei der Effizienz.
Darüber hinaus wird untersucht, wie sich das Weglassen bestimmter Details in den Aufgabenbeschreibungen auf die Leistung von GPT-4 auswirkt. Die Ergebnisse zeigen, dass solche Auslassungen zu einem deutlichen Leistungsrückgang führen. Schließlich wird ein Mechanismus vorgestellt, der LLMs dabei unterstützt, fehlende Details in den Aufgabenbeschreibungen zu identifizieren und zu ergänzen.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania