RIME ist ein robuster Algorithmus für präferenzbasiertes Verstärkungslernen, der effektives Belohnungslernen aus verrauschten Präferenzen ermöglicht.