核心概念
本文提出了一種基於深度強化學習的框架,用於優化災後基礎設施系統的恢復策略,旨在最大程度地提高系統的韌性。
本研究論文探討了利用深度強化學習 (DRL) 技術優化災後基礎設施系統恢復的議題。作者強調現代社會對於基礎設施系統的依賴性,以及這些系統在面對自然災害和人為災害時的脆弱性。論文重點關注災後恢復過程中,在有限資源限制下,如何有效地制定修復排程,以最大程度地提高系統韌性。
研究背景
傳統的災後恢復優化方法,包括組件排序法、貪婪演算法和數據驅動的機器學習模型,在處理複雜的現實世界場景時面臨著諸多限制。組件排序法未能考慮到組件之間的動態交互作用;貪婪演算法在高維搜索空間中效率低下;而數據驅動的機器學習模型則高度依賴於大量的標註數據,而這些數據在實際情況中往往難以獲取。
研究方法
為了解決這些問題,本研究提出了一種基於 DRL 的新型方法,該方法利用深度 Q 學習算法來學習最佳恢復策略。研究採用基於圖的結構來表示系統拓撲,將系統恢復過程制定為序列決策問題。代理根據當前系統狀態選擇修復操作(例如,確定下一個要修復的組件),目標是最大程度地提高系統的長期韌性。
主要發現
研究結果表明,與傳統方法相比,所提出的 DRL 方法在優化效果和計算成本方面均表現出優異的性能。具體而言,與基於組件排序、貪婪演算法和數據驅動模型的基準方法相比,DRL 方法在最小化停機時間和實現更快系統恢復方面表現出色。
研究結論
本研究強調了 DRL 在優化災後基礎設施系統恢復方面的潛力。所提出的框架為決策者提供了一種系統化且有效的方法,以優化資源分配並最大程度地減少災害造成的破壞。研究結果對於增強基礎設施系統的韌性和確保社區在災難發生後的快速恢復具有重要意義。
統計資料
DDQN 算法在訓練過程中實現了 9860 MW·day 的最低 LoR 值,與 DQN 基線 12070 MW·day 相比提高了 18.3%。
Duel DQN 和 Duel DDQN 分別將 LoR 值降低至 11110 MW·day(降低 8.0%)和 11370 MW·day(降低 5.8%)。