본 논문은 신경망 기반 제어기를 활용하여 복잡한 시공간적 과제와 순차적 과제를 수행하는 자율 에이전트를 위한 모델 기반 접근법을 제안한다.
이산 시간 신호 시간 논리(DT-STL)를 활용하여 에이전트의 과제 목표와 안전 제약을 수학적으로 명확히 표현한다. DT-STL 사양에 대한 강건성 지표를 최적화하는 것이 학습의 핵심 목표이다.
신경망 제어기의 매개변수를 학습하기 위해 강건성 지표의 경사도를 계산하는 과정에서 vanishing/exploding gradient 문제가 발생한다. 이를 해결하기 위해 드롭아웃 기반의 샘플링 기법을 제안한다. 이 기법은 중요한 시간 구간을 선별적으로 활용하여 경사도를 효율적으로 계산한다.
DT-STL 사양에 대한 새로운 미분 가능한 계산 그래프를 제안한다. 이는 기존 비 미분 가능한 계산 그래프를 보완하여 복잡한 시간 논리 사양에 대한 학습을 가능하게 한다.
다양한 비선형 동적 시스템에 대한 실험을 통해 제안 기법의 효과를 입증한다. 특히 수천 단계의 긴 시간 과제에서도 기존 방식 대비 훨씬 빠른 학습 속도를 보인다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究