toplogo
登入

基於模型預測控制的數據驅動模糊控制器合成


核心概念
本文提出了一種基於模型預測控制 (MPC) 的數據驅動模糊控制器合成框架,稱為模糊自回歸移動平均 (F-ARMA) 控制器,利用 MPC 數據訓練 ARMA 控制器,模擬 MPC 在不同條件下的響應,並透過 Takagi-Sugeno 模糊系統加權和插值所有已訓練 ARMA 控制器的響應,實現對原始 MPC 控制器約束響應的模擬。
摘要

研究論文摘要

書目資訊

Juan Augusto Paredes Salazar and Ankit Goel. (2024). MPC-guided, Data-driven Fuzzy Controller Synthesis. arXiv preprint arXiv:2410.06556v1.

研究目標

本研究旨在開發一種基於模型預測控制 (MPC) 的數據驅動模糊控制器合成框架,以解決 MPC 在資源受限系統中計算成本高的問題。

方法

研究提出了一種稱為模糊自回歸移動平均 (F-ARMA) 控制器的框架。該框架首先使用 MPC 閉環模擬數據訓練多個自回歸移動平均 (ARMA) 控制器,每個 ARMA 控制器模擬 MPC 在特定條件下的響應。然後,使用 Takagi-Sugeno (T-S) 模糊系統根據測量的系統條件對所有已訓練 ARMA 控制器的響應進行加權和插值,從而產生最終的 F-ARMA 控制器。

主要發現

數值算例表明,所提出的 F-ARMA 控制器能夠有效地模擬原始 MPC 控制器的約束響應,同時顯著降低了計算成本。

主要結論

基於 MPC 的數據驅動模糊控制器合成框架提供了一種有效的方法,可以在資源受限的系統中實現接近 MPC 性能的控制。 F-ARMA 控制器結合了 ARMA 控制器的簡單性和模糊系統的非線性逼近能力,使其成為模擬複雜 MPC 行為的有效解決方案。

意義

本研究為資源受限系統的先進控制策略的開發做出了貢獻。所提出的 F-ARMA 控制器有可能應用於各種需要低計算複雜度的控制任務。

局限性和未來研究方向

未來的研究方向包括在物理實驗中驗證 F-ARMA 框架,並利用模糊系統優化技術自動選擇模糊系統規則和隸屬函數參數。

edit_icon

客製化摘要

edit_icon

使用 AI 重寫

edit_icon

產生引用格式

translate_icon

翻譯原文

visual_icon

產生心智圖

visit_icon

前往原文

統計資料
線性 MPC 的平均運行時間為每個步驟 1.1 × 10^-3 秒。 F-ARMA 的平均運行時間為每個步驟 8.2 × 10^-6 秒。 非線性 MPC 的平均運行時間為每個步驟 1.1 秒。 F-ARMA 在擺動控制中的平均運行時間為每個步驟 5.4 × 10^-5 秒。
引述
"MPC-guided control synthesis, also know as imitation learning, in which training data obtained from MPC closed-loop simulations is used to synthesize a low computational complexity controller that emulates the response of MPC, which usually take the form of neural networks [13]–[19]." "The T-S fuzzy framework is chosen since it provides an intuitive methodology to interpolate the response of linear systems for control applications [21], [22]."

從以下內容提煉的關鍵洞見

by Juan Augusto... arxiv.org 10-10-2024

https://arxiv.org/pdf/2410.06556.pdf
MPC-guided, Data-driven Fuzzy Controller Synthesis

深入探究

除了模糊控制器之外,還有哪些其他方法可以有效地模擬 MPC 在資源受限系統中的行為?

除了模糊控制器(如 F-ARMA)之外,還有其他幾種方法可以有效地模擬模型預測控制(MPC)在資源受限系統中的行為: 顯式 MPC (Explicit MPC, EMPC): EMPC 預先計算 MPC 的解,並將其存儲在一個查找表中。在線上執行時,控制器只需根據當前狀態從查找表中檢索相應的控制動作,從而顯著降低了計算成本。然而,EMPC 的主要缺點是查找表的規模會隨著系統維度和約束條件的增加而急劇增長,限制了其在複雜系統中的應用。 基於學習的方法 (Learning-based methods): 近年來,機器學習技術,特別是深度學習,在模擬 MPC 行為方面顯示出巨大潛力。這些方法使用大量的歷史數據來訓練一個代理模型(例如,神經網絡),該模型可以學習 MPC 控制器的輸入-輸出映射關係。常見的基於學習的 MPC 方法包括: 策略學習 (Policy learning): 直接學習從狀態到控制動作的映射策略,例如,使用深度強化學習算法。 模型學習 (Model learning): 學習系統的動態模型,然後使用該模型進行 MPC 優化。 殘差學習 (Residual learning): 學習 MPC 控制器的殘差,即實際控制動作與代理模型預測的控制動作之間的差異,以提高代理模型的精度。 近似動態規劃 (Approximate Dynamic Programming, ADP): ADP 是一種基於優化的控制方法,它試圖通過近似求解貝爾曼方程來找到最優控制策略。ADP 可以用於學習 MPC 控制器的值函數或 Q 函數,從而實現近似最優控制。 每種方法都有其優缺點,適用於不同的應用場景。選擇合適的方法取決於多個因素,例如系統的複雜性、資源限制、所需的控制性能和可用的數據量。

如果訓練數據中存在顯著的噪聲或不確定性,F-ARMA 控制器的性能會如何受到影響?

如果訓練數據中存在顯著的噪聲或不確定性,F-ARMA 控制器的性能會受到負面影響,主要體現在以下幾個方面: 模型精度下降: 噪聲和不確定性會降低 ARMA 模型的擬合精度,導致 F-ARMA 控制器無法準確地預測系統的行為,進而影響控制性能。 泛化能力變差: 在有噪聲的數據上訓練的 F-ARMA 控制器更容易出現過擬合現象,即在訓練數據上表現良好,但在新的、未見過的數據上表現較差。 穩定性問題: 噪聲和不確定性可能導致 F-ARMA 控制器產生不穩定的控制信號,影響系統的穩定性。 為了減輕噪聲和不確定性對 F-ARMA 控制器性能的影響,可以採取以下措施: 數據預處理: 在訓練 F-ARMA 控制器之前,對數據進行預處理以減少噪聲和不確定性的影響,例如使用濾波、平滑或去噪技術。 魯棒性設計: 在設計 F-ARMA 控制器時,考慮噪聲和不確定性的影響,例如使用魯棒優化方法或添加正則化項。 自適應機制: 引入自適應機制,使 F-ARMA 控制器能夠在線學習和適應噪聲和不確定性的變化,例如使用自適應濾波或在線學習算法。

如何將 F-ARMA 控制器框架擴展到處理多輸入多輸出 (MIMO) 系統和時變系統?

F-ARMA 控制器框架可以通過以下方法擴展到處理多輸入多輸出 (MIMO) 系統和時變系統: 針對 MIMO 系統: 多變量 ARMA 模型: 使用多變量 ARMA 模型來表示 MIMO 系統的動態特性,其中每個輸出都與所有輸入和過去的輸出相關。 多維模糊規則: 設計多維模糊規則來處理多個輸入和輸出變量之間的複雜關係。可以使用多維模糊集和相應的隸屬函數來定義模糊規則。 針對時變系統: 時變 ARMA 模型: 使用時變 ARMA 模型來捕捉系統的時變特性,例如,使用時變參數或狀態空間模型。 自適應模糊規則: 引入自適應機制,使模糊規則能夠在線調整以適應系統的時變特性。例如,可以使用在線模糊聚類算法或遞歸最小二乘算法來更新模糊規則。 多模型 F-ARMA 控制器: 使用多個 F-ARMA 控制器來覆蓋系統的不同工作點或運行模式,並根據當前系統狀態選擇合適的控制器。 其他擴展: 非線性 F-ARMA 控制器: 使用非線性 ARMA 模型或模糊模型來處理系統的非線性特性。 基於數據驅動的模糊規則設計: 使用數據驅動的方法,例如模糊聚類或遺傳算法,來自動設計和優化模糊規則。 通過以上擴展,F-ARMA 控制器框架可以應用於更廣泛的控制問題,包括 MIMO 系統、時變系統和非線性系統。
0
star