Основні поняття
本文提出了一種名為 TADPoLe(基於文字感知擴散模型的策略學習)的新方法,該方法利用預先訓練好的文字轉圖像或文字轉影片擴散模型,為強化學習策略提供密集的文字條件獎勵信號,從而實現零樣本學習,並鼓勵代理學習更自然的行為。
本研究旨在探討如何利用預先訓練好的大型文字條件生成模型,為強化學習策略提供零樣本、文字對齊的密集獎勵信號,從而解決傳統強化學習方法需要手動設計獎勵函數的局限性。
本文提出的 TADPoLe 方法利用預先訓練好的、凍結的文字條件擴散模型,以判別的方式計算獎勵信號。具體而言,TADPoLe 計算兩個獎勵項的加權組合:
對齊獎勵 (ralign): 衡量渲染觀察結果與文字條件之間的對齊程度。通過計算有條件和無條件噪音預測之間的均方誤差來實現。
重建獎勵 (rrec): 衡量代理行為的自然程度。通過比較有條件和無條件噪音預測與實際添加噪音之間的差異來實現。
最終的獎勵信號是這兩個項的加權組合,並應用 symlog 變換進行歸一化。
此外,本文還提出了 Video-TADPoLe,它利用文字轉影片擴散模型,根據過去和未來幀的滑動上下文窗口計算密集獎勵,鼓勵代理學習與文字和自然影片先驗相一致的動作序列。