이 논문은 모방 학습에서 발생할 수 있는 오류로 인한 안전 문제를 해결하기 위한 방법을 제안한다. 기존의 모방 학습 방법은 전문가의 행동을 그대로 모방하는 것이지만, 이 과정에서 발생하는 오류가 누적되면 위험한 상황에 빠질 수 있다.
제안하는 SAFE-GIL 방법은 전문가의 행동에 의도적인 교란을 가하여 안전 위험이 높은 상황으로 유도한다. 이를 통해 전문가가 위험 상황에서 취하는 회복 행동을 학습할 수 있다. 구체적으로 다음과 같은 과정을 거친다:
실험 결과, 제안 방법은 기존 모방 학습 방법에 비해 적은 데이터로도 높은 성공률을 달성할 수 있음을 보였다. 특히 안전 위험이 높은 상황에서 우수한 성능을 보였다. 다만 성능 최적화 측면에서는 약간의 성능 저하가 있었다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yusuf Umut C... at arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05249.pdfDeeper Inquiries