Expertendemonstrationen können effizienter sein als präferenzbasiertes Lernen, insbesondere wenn starke allgemeine Sprachmodelle zur Verfügung stehen. Verschiedene Ansätze zur Ausrichtung von Großen Sprachmodellen auf Expertendemonstrationen werden aus der Perspektive des Inversen Verstärkungslernens untersucht.
Die schrittweise direkte Präferenzoptimierung (sDPO) ist eine Erweiterung der direkte Präferenzoptimierung (DPO), bei der die verfügbaren Präferenzdatensätze in einem schrittweisen Verfahren verwendet werden, anstatt sie auf einmal einzusetzen. Dadurch wird die Verwendung genauer ausgerichteter Referenzmodelle innerhalb des DPO-Trainingsrahmens erleichtert, was zu einem leistungsfähigeren Endmodell führt.