연속 제어 환경에서 심층 강화학습 에이전트는 시간에 따른 성능 변동성이 크게 나타나는데, 이는 정책 매개변수에 대한 수익 지형도의 불연속성에 기인한다. 정책 업데이트 후 수익 분포를 분석하면 동일한 평균 수익을 가진 정책들 간에도 분포 특성이 크게 다르며, 이는 에이전트의 행동 양상 차이로 이어진다.