이 논문은 보조 데이터를 활용하여 인간 상호작용 강화학습 알고리즘의 피드백 효율성을 향상시키는 방법인 Sub-optimal Data Pre-training (SDP)을 제안한다.
SDP는 두 단계로 구성된다:
실험 결과, SDP는 스칼라 및 선호도 기반 인간 상호작용 강화학습 알고리즘의 성능을 크게 향상시켰다. 또한 SDP는 대상 작업과 다른 작업의 보조 데이터도 활용할 수 있는 것으로 나타났다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Calarina Mus... lúc arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.00746.pdfYêu cầu sâu hơn