Główne pojęcia
보조 데이터를 활용하여 인간 상호작용 강화학습 알고리즘의 피드백 효율성을 향상시킬 수 있다.
Streszczenie
이 논문은 보조 데이터를 활용하여 인간 상호작용 강화학습 알고리즘의 피드백 효율성을 향상시키는 방법인 Sub-optimal Data Pre-training (SDP)을 제안한다.
SDP는 두 단계로 구성된다:
- 보상 모델 사전 학습 단계: 보상이 낮은 보조 데이터를 0으로 의사 레이블링하여 보상 모델을 사전 학습한다. 이를 통해 보상 모델이 저품질 전이를 낮은 보상으로 인식하도록 한다.
- 에이전트 업데이트 단계: 보조 데이터로 에이전트의 리플레이 버퍼를 초기화하고, 에이전트를 환경에서 상호작용시켜 새로운 행동을 생성한다. 이를 통해 인간 교사가 기존 보조 데이터와 다른 피드백을 제공할 수 있게 한다.
실험 결과, SDP는 스칼라 및 선호도 기반 인간 상호작용 강화학습 알고리즘의 성능을 크게 향상시켰다. 또한 SDP는 대상 작업과 다른 작업의 보조 데이터도 활용할 수 있는 것으로 나타났다.
Statystyki
보조 데이터를 활용하면 보상 모델 학습에 "무료" 편향을 제공할 수 있다.
보조 데이터로 에이전트의 리플레이 버퍼를 초기화하면 인간 교사가 기존 보조 데이터와 다른 피드백을 제공할 수 있다.
Cytaty
"보조 데이터를 활용하여 보상 모델에 "무료" 편향을 제공할 수 있다."
"보조 데이터로 에이전트의 리플레이 버퍼를 초기화하면 인간 교사가 기존 보조 데이터와 다른 피드백을 제공할 수 있다."