관찰 공간이 불필요하게 높은 차원이고 시간 상관 잡음에 종속되는 실세계 제어 환경에서, 시스템의 제어 가능한 동역학은 원시 관찰 동역학보다 훨씬 단순할 수 있다. 따라서 관찰 공간을 제어 관련 변수의 더 단순한 공간으로 매핑하는 인코더를 학습하는 것이 바람직하다. 본 연구에서는 다단계 역전 방법의 한계를 지적하고, 이를 보완하는 새로운 알고리즘 ACDF를 제안한다. ACDF는 다단계 역전 예측과 잠재 전방 모델을 결합하여 Ex-BMDP 모델의 광범위한 클래스에 대해 올바른 제어 관련 잠재 상태 인코더를 학습할 수 있음을 보장한다.
관찰 공간이 불필요하게 높은 차원이고 시간 상관 잡음에 종속되는 경우에도, 시스템의 제어 가능한 동역학은 종종 원시 관찰의 동역학보다 훨씬 단순하다. 따라서 관찰 공간을 제어 관련 변수의 더 단순한 공간으로 매핑하는 인코더를 학습하는 것이 바람직하다. 이 연구에서는 다단계 역전 방법의 한계를 지적하고, 이를 보완하는 새로운 알고리즘 ACDF를 제안한다.