Die Autoren präsentieren einen Ansatz zum Erlernen einer Belohnungsfunktion aus Präferenzrangfolgen über suboptimale Demonstrationen, um eine robuste Robotersteuerung für chirurgische Elektrokauterisierungsaufgaben zu entwickeln.
Zunächst wird ein Autoencoder trainiert, um eine niedrigdimensionale Merkmalsrepräsentation von partiellen Punktwolkenbeobachtungen zu lernen. Anschließend wird mithilfe dieser Merkmalsrepräsentation und Präferenzrangfolgen über Demonstrationen eine Belohnungsfunktion gelernt, die die Wahrscheinlichkeit der Präferenzrangfolgen maximiert. Die gelernte Belohnungsfunktion wird dann verwendet, um eine Robotersteuerungspolitik mittels Reinforcement Learning zu erlernen.
Die Autoren zeigen, dass ihr Ansatz in zwei simulierten chirurgischen Elektrokauterisierungsaufgaben eine um 64,13% bzw. 44,70% höhere Erfolgsquote erreicht als reine Imitation. Außerdem demonstrieren sie einen Proof-of-Concept auf einer physischen Elektrokauterisierungsaufgabe mit ex-vivo Rindermuskelgewebe, bei der die Methode in 5 von 7 Versuchen erfolgreich war.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zohre Karimi... at arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.07185.pdfDeeper Inquiries