기존 오프라인 강화학습 알고리즘들은 다양한 데이터 소스를 활용할 때 성능이 크게 저하되는 문제가 있다. 이를 해결하기 위해서는 단순히 네트워크 규모를 늘리는 것이 핵심적인 요인이다.