Einführung eines robusten DPO-Algorithmus zur Bewältigung von fehlerhaftem Feedback in Sprachmodellen.