Robuste Präferenzoptimierung mit nachweisbarer Rauschtoleranz für LLMs
Eine provable rauschtolerante Methode zur Präferenzoptimierung von Sprachmodellen, die dynamisch konservative Gradientengewichte für Antwortpaare mit hoher Labelunsicherheit zuweist, um den negativen Einfluss von Rauschen auf das Präferenzlernen zu mindern.