Core Concepts
신경망 기반 강화학습 정책을 더 해석 가능한 형태인 그래디언트 부스팅 머신, 설명 가능한 부스팅 머신, 기호 회귀로 증류하는 새로운 접근법을 제시한다.
Abstract
이 연구는 신경망 기반 강화학습 보행 정책을 더 해석 가능한 형태로 증류하는 새로운 접근법을 제안한다.
주요 내용은 다음과 같다:
전문가 신경망 정책을 그래디언트 부스팅 머신, 설명 가능한 부스팅 머신, 기호 회귀로 증류하는 새로운 프레임워크를 제안한다.
보행, 구보, 패이스, 도약 등 다양한 보행 동작에 대해 증류된 정책의 성능과 해석 가능성을 평가한다.
증류된 정책에서 관측치-행동 매핑의 중요도를 분석하여 정책의 해석 가능성을 제공한다.
제안한 방법론을 통해 신경망 전문가 정책을 205시간 학습하고 각 보행 동작에 대해 10분 만에 해석 가능한 정책을 증류할 수 있음을 보인다.
Stats
보행 정책의 회귀 성능(R2 score)은 GBM 0.9705, EBM 0.9787, 기호 회귀 0.6811이다.
증류된 GBM과 EBM 정책은 단독으로 사용할 때 신경망 전문가 정책보다 10% 이상 우수한 성능을 보였다.
기호 회귀 정책은 전문가 정책과 적절히 교대로 사용할 때 2-12% 향상된 성능을 보였다.
Quotes
"신경망 기반 강화학습 정책의 복잡성과 "블랙박스" 특성은 안전성과 신뢰성이 중요한 응용 분야에서 해석 가능성 및 광범위한 수용을 저해한다."
"본 연구는 신경망 기반 강화학습 정책을 더 해석 가능한 형태로 증류하는 새로운 프레임워크를 제안한다."