Effektive Überwindung der Überoptimierung von Belohnungen durch adversarische Richtlinienoptimierung mit leichter Unsicherheitsschätzung
Adversarische Policy-Optimierung (AdvPO) mit leichter Unsicherheitsschätzung zur Bekämpfung von Belohnungsüberoptimierung in RLHF.