Evaluierung der Fähigkeit von instruktionsgesteuerten Sprachmodellen, Anweisungen zu befolgen, durch Manipulation von Verbalisierer
Obwohl skalierte instruktionsgesteuerte Sprachmodelle bei natürlichen und neutralen Anweisungen besser abschneiden, divergieren ihre Leistungen bei unnatürlichen Anweisungen, die im Widerspruch zu ihren Vorkenntnissen stehen, signifikant.