Der Einbezug des Belohnungsabstands in den Trainingsprozess von Präferenzmodellen führt zu einer signifikanten Verbesserung ihrer Effektivität.