Flexibles Sicherheitstuning von Sprachmodellen durch Verwendung synthetischer Präferenzdaten
Eine neue Methode, Configurable Safety Tuning (CST), die Direct Preference Optimization (DPO) erweitert, um die flexible Konfiguration der Sicherheitseinstellungen von Sprachmodellen zur Inferenzzeit zu ermöglichen.