Erlernen einer robusten Belohnungsfunktion aus suboptimalen Demonstrationen mit Anwendungen in der chirurgischen Elektrokauterisierung
Durch das Erlernen einer Belohnungsfunktion aus Präferenzrangfolgen über suboptimale Demonstrationen kann ein robuster Robotersteuerungsalgorithmus für komplexe chirurgische Aufgaben wie die Elektrokauterisierung entwickelt werden, der die Leistung von reiner Imitation übersteigt.