本文探討了在不同領域預訓練決策轉換器(DT)模型對其在強化學習任務中的表現影響。作者發現,預訓練模型在需要短期規劃能力的環境中表現優於從頭訓練的DT,但在需要長期規劃能力的環境中表現卻不如從頭訓練的DT。
作者分析發現,這是因為預訓練過程中轉移來的注意力頭包含了馬爾可夫矩陣(Markov Head)的特性,使得模型過度關注當前狀態,忽略了歷史信息。在短期環境中,這種特性有利於提高性能,但在長期環境中卻會阻礙模型提取有用的歷史信息。
為了解決這一問題,作者提出了GPT-DTMA方法,將GPT-DT與注意力混合(Mixture of Attention, MoA)機制相結合。MoA可以自適應地調整Markov Head的重要性,從而在不同環境中都能取得良好的性能。實驗結果表明,GPT-DTMA在短期環境中優於基線,在長期環境中也能達到與從頭訓練DT相當的水平。
翻譯成其他語言
從原文內容
arxiv.org
深入探究