核心概念
RankPrompt, eine neue Prompt-Methode, ermöglicht es Sprachmodellen, ihre Antworten selbstständig zu bewerten, ohne zusätzliche Ressourcen zu benötigen. RankPrompt zerlegt das Ranking-Problem in eine Reihe von Vergleichen zwischen verschiedenen Antworten und nutzt die inhärenten Fähigkeiten von Sprachmodellen, um Vergleichsketten als kontextuelle Beispiele zu generieren.
摘要
In dieser Studie wird eine neue Prompt-Methode namens RankPrompt vorgestellt, die es Sprachmodellen ermöglicht, ihre eigenen Antworten zu bewerten und die beste Lösung auszuwählen, ohne zusätzliche Ressourcen zu benötigen.
RankPrompt besteht aus zwei Hauptkomponenten:
- Generierung verschiedener Lösungswege: Zunächst werden mehrere mögliche Lösungswege für eine Aufgabe generiert, die potenziell zu unterschiedlichen Ergebnissen führen.
- Vergleich und Ranking der Lösungswege: In diesem Schritt werden die generierten Lösungswege systematisch miteinander verglichen, um den besten Weg zu identifizieren. Dazu werden schrittbezogene Vergleichsanweisungen und automatisch generierte Vergleichsbeispiele verwendet.
Die Experimente zeigen, dass RankPrompt die Leistung von ChatGPT und GPT-4 in einer Reihe von Arithmetik- und Alltagsverständnisaufgaben deutlich verbessert, mit Steigerungen von bis zu 13%. RankPrompt überzeugt auch bei der automatischen Bewertung offener Textgenerierung und stimmt zu 74% mit menschlichen Präferenzen überein.
Darüber hinaus erweist sich RankPrompt als robust gegenüber Variationen in der Reihenfolge und Konsistenz der Antworten. Die Analyse zeigt, dass die Genauigkeit und Komplexität der Vergleichsbeispiele eine entscheidende Rolle für die Ranking-Leistung spielen.
統計資料
Bob gibt insgesamt 27.000 US-Dollar für den Kauf von Büchern aus, die er auf 3 Schulen verteilt.
Er kann 100 Bücher für 500 US-Dollar kaufen.
引述
"RankPrompt zerlegt das Ranking-Problem in eine Reihe von Vergleichen zwischen verschiedenen Antworten und nutzt die inhärenten Fähigkeiten von Sprachmodellen, um Vergleichsketten als kontextuelle Beispiele zu generieren."
"Die Experimente zeigen, dass RankPrompt die Leistung von ChatGPT und GPT-4 in einer Reihe von Arithmetik- und Alltagsverständnisaufgaben deutlich verbessert, mit Steigerungen von bis zu 13%."