Core Concepts
Direkte Implementierung von Harmless Reinforcement Learning from Human Feedback (RLHF) verbessert Conversational LLMs.
Abstract
Neue Methode umgeht SFT und verbessert Conversational Abilities.
Mistral-Plus übertrifft andere Modelle in 11 allgemeinen Aufgaben.
Verbesserte Konversationsfähigkeiten und reduzierte toxische Ausgaben.
Sicherheitsaspekte durch menschliches Feedback.
Vergleich von Mistral-Plus mit Mistral-Instruct in verschiedenen Aufgaben.
Analyse der Bad Word-Generierungswahrscheinlichkeit.
Stats
"In den letzten Fortschritten bei Conversational Large Language Models (LLMs) ist ein besorgniserregender Trend aufgetreten, der zeigt, dass viele neue Basis-LLMs nach dem Supervised Fine-Tuning (SFT) eine Wissensreduktion in ihren grundlegenden Fähigkeiten erfahren."
"Unsere Methode nicht nur die allgemeinen Fähigkeiten des Basismodells bewahrt, sondern auch seine Konversationsfähigkeiten signifikant verbessert und die Erzeugung toxischer Ausgaben reduziert."
"Mistral-Plus zeigt herausragende Leistungen in Aufgaben zur Sprachverarbeitung und logischem Denken."
Quotes
"Unsere Methode nicht nur die allgemeinen Fähigkeiten des Basismodells bewahrt, sondern auch seine Konversationsfähigkeiten signifikant verbessert und die Erzeugung toxischer Ausgaben reduziert."