Core Concepts
LLMs müssen mit menschlichen Erwartungen ausgerichtet werden, um Sicherheit und Nützlichkeit zu gewährleisten.
Abstract
Abstract:
- LLMs müssen mit menschlichen Erwartungen ausgerichtet werden.
- Vorschlag zur Entkopplung von LLMs und Ausrichtung durch Trainieren von Aligner-Modellen.
- Verwendung von synthetischen Daten zur Schulung von Alignern und Inspektoren.
Einführung:
- LLMs können vielfältige Aufgaben lösen, neigen jedoch zu Halluzinationen und toxischem Text.
- Verschiedene Techniken zur Ausrichtung von Sprachmodellen mit menschlichen Präferenzen wurden vorgeschlagen.
Aligner und Inspektoren:
- Sammeln von Tripeln von Eingabe, fehlgeleiteter Antwort und ausgerichteter Antwort.
- Schulung des Aligners durch Feinabstimmung eines kleineren LLMs.
- Schulung des Inspektors durch Feinabstimmung eines BERT-Modells.
Experimente:
- Evaluierung der ethischen Aligner auf synthetischen Testdaten.
- Verifizierung der Qualität der Bewertungsmodelle.
Synthetische Daten Generierung:
- Generierung von ausgerichteten und fehlgeleiteten Antworten.
- Generierung von Eingaben für verschiedene Ausrichtungskriterien.
Verwendung des Inspektors und PairRanker für ethische Ausrichtungsevaluierung:
- Beschreibung der Verwendung von PairRanker und Inspektor für die Bewertung von Ausrichtung.
Schlussfolgerung und zukünftige Arbeit:
- Plan zur Schulung weiterer Aligner-Inspektor-Paare für verschiedene Ausrichtungskriterien.
- Ziel, ein Ökosystem von Alignern zu erhalten.
Stats
Alignment ist herausfordernd, teuer und muss für jedes LLM und Ausrichtungskriterium wiederholt werden.
Trainieren von Aligner-Modellen mit synthetischen Daten.
Ethical Aligners zeigen bessere ethische Ausrichtung als Basis-LLMs.
Quotes
"Große Sprachmodelle müssen mit menschlichen Erwartungen ausgerichtet werden, um Sicherheit und Nützlichkeit zu gewährleisten."
"Wir schlagen vor, LLMs und Ausrichtung durch Trainieren von Aligner-Modellen zu entkoppeln."
"Unser Ziel ist es, ein Ökosystem von Alignern zu erhalten, bei dem die entsprechenden Inspektoren entscheiden, wann und welche Aligner verwendet werden sollen."