在自我預測表徵學習 (SPR) 框架中,對自監督學習 (SSL) 目標函數進行特定調整,例如終止狀態遮罩和優先經驗回放加權,可以顯著提高資料效率,但這些調整並非通用的,其有效性取決於具體的強化學習環境和任務。