이 논문은 오프라인 강화학습 알고리즘들이 다양한 데이터 소스를 활용할 때 겪는 어려움을 보여준다. 기존 알고리즘들은 단일 과제의 데이터로 학습할 때는 잘 작동하지만, 여러 과제의 데이터를 합쳐서 학습할 때 성능이 크게 저하되는 문제가 있다.
이를 해결하기 위해 저자들은 다양한 가설을 제안하고 실험적으로 검증한다. 그 결과, 네트워크 규모를 늘리는 것이 가장 중요한 요인으로 나타났다. 단순히 네트워크 크기를 늘리는 것만으로도 기존 알고리즘들의 성능을 크게 향상시킬 수 있었다.
또한 앙상블 기반의 Q 함수 학습, 평가 시 다수의 행동 샘플링, 그리고 가중치 기반 행동 샘플링 등의 기법들도 일부 도움이 되는 것으로 나타났다. 하지만 이들 기법의 효과는 네트워크 규모에 비해 상대적으로 작았다.
저자들은 이러한 발견을 바탕으로 D4RL 벤치마크에서도 기존 최신 알고리즘들을 뛰어넘는 성능을 달성할 수 있었다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究