本文提出了一種基於雙模擬的表示學習算法KROPE,能夠穩定和提高離線價值函數學習的性能。KROPE通過學習狀態-動作對的表示,使得相似的狀態-動作對在表示空間中也具有相似的表示,從而穩定價值函數學習過程。