核心概念
本文提出了一種將基於變換器的序列模型與模型預測控制(MPC)相結合的框架,以有效解決機器人軌跡優化問題,並透過預訓練和微調策略提高了計算效率和魯棒性。
論文概述
本論文介紹了一種基於變換器的模型預測控制(MPC)框架,用於機器人軌跡優化。該方法結合了基於優化的控制方法和基於學習的方法的優點,利用變換器模型生成接近最優的軌跡,作為非凸優化問題的初始猜測或目標計劃。
研究背景
軌跡生成是實現可靠機器人自主性的關鍵,傳統的基於數值優化的軌跡優化方法存在計算複雜度高、依賴初始化、缺乏魯棒性等問題。近年來,機器學習(ML)方法在軌跡生成問題上的應用日益增多,但其對分佈變化敏感,且在高維動作空間中表現不佳。
研究方法
本論文提出的框架主要包含兩個步驟:
離線預訓練: 首先,透過重複求解具有隨機初始條件和目標狀態的軌跡優化問題,生成包含最優軌跡和放鬆約束後的軌跡的數據集。然後,利用該數據集訓練變換器模型,使其能夠生成接近最優的狀態和控制序列。
線上微調: 為了提高模型在閉環執行時的性能,採用基於 DAGGER 算法的迭代微調策略。具體而言,在模擬環境中,利用變換器模型與環境交互,並根據專家策略(即求解完整軌跡優化問題)提供的修正信息更新模型參數。
在 MPC 推理過程中,變換器模型用於生成短時域內的軌跡預測,並將預測的終止狀態作為終止成本函數的輸入,以引導 MPC 求解器找到與長時域目標一致的解。
實驗結果
論文在三個軌跡優化問題上驗證了所提框架的有效性:
航天器交會和接近操作: 與基於放鬆約束的 MPC 方法相比,該框架在成本、運行時間和收斂速度方面均有顯著提升。
四旋翼飛行器控制: 在避障導航任務中,該框架能夠在保持較低計算成本的同時,生成與長時域規劃方法性能相當的軌跡。
自由飛行器測試平台: 在真實世界的機器人平台上進行的實驗表明,該框架能夠生成平滑、高效的軌跡,並在避障性能和推進劑消耗方面優於傳統方法。
主要貢獻
本論文的主要貢獻包括:
提出一種結合離線學習和線上優化的框架,用於 MPC 中的高效軌跡生成。
研究了框架內的設計和學習策略,評估了微調對 MPC 執行效果的影響,以及學習終止成本函數對減輕短時域 MPC 固有缺陷的益處。
透過模擬和真實世界的實驗,證明了該框架能夠顯著提高現有軌跡優化方法的性能,並具有良好的實用價值。
未來方向
未來的工作包括:
將該框架擴展到多任務隨機優化問題,並採用更通用的場景和輸入表示。
研究更先進的學習策略,例如數據增強和元學習,以處理未建模的動力學和分佈外數據。
探索基於強化學習的微調策略,以進一步提高模型的性能和泛化能力。
統計資料
與僅基於優化的方法相比,該方法可將軌跡生成性能提高多達 75%,將求解器迭代次數減少多達 45%,並在不損失性能的情況下將整體 MPC 運行時間縮短 7 倍。
在航天器交會任務中,與基於放鬆約束的 MPC 方法相比,FT-TTO-MPC 在成本上提高了 75%,迭代次數減少了 40%。
在四旋翼飛行器控制任務中,FT-TTO-MPC 在成本上提高了 20%,迭代次數減少了 10%。
在自由飛行器測試平台上,FT-TTO-MPC 在保持與長時域規劃方法相當的性能的同時,運行時間縮短了 7 倍。