本研究提出了一種新的模型型基強化學習框架LiRA,旨在在學習過程中適度提高模型的魯棒性,同時避免過度保守的控制性能。
首先,LiRA通過變分推論重新定義了對抗性學習,引入了必要的組件。然後,將輕量級魯棒性作為約束條件整合其中,自動調節對抗性的強度,平衡魯棒性和保守性。
具體來說,LiRA引入了一個額外的輕量級魯棒性約束,限制了由於干擾而導致的預測性能下降。通過拉格朗日方法,這個不等式約束被轉換為一個損失函數,允許自動調整對抗性的強度。
此外,LiRA還實現了三個實用技巧:1) 受限歸一化流(RNF)確保了有/無干擾模型的預測均值一致;2) 事後重參數化梯度(HRG)使梯度反轉層(GRL)可用於穩定高效的對抗性學習;3) 中間值-平均值平衡(MMB)有效地提高了模型的魯棒性。
數值模擬表明,LiRA能夠自動調整對抗性強度,在魯棒性和保守性之間達到良好的平衡。此外,在一個四足機器人的實際學習任務中,LiRA僅使用少量的真實世界數據(不到2小時)就成功學習了對外力的反應性步態控制,而完全的對抗性學習有很高的機器人故障風險。
翻譯成其他語言
從原文內容
arxiv.org
深入探究