Grunnleggende konsepter
本文提出了一個名為 MSF 模型的分析框架,用於分析複製儲存系統中的亞穩態故障,特別是由重試風暴引起的故障,並探討了如何利用佇列理論、馬可夫鏈和蒙特卡羅分析來預測和理解這些故障。
Sammendrag
MSF 模型:複製儲存系統中亞穩態故障的佇列分析和預測
本文提出了一個針對複製儲存系統中亞穩態故障的正式分析和建模框架,稱為 MSF 模型。亞穩態故障是真實世界分散式儲存系統中經常出現的一種故障模式。本文重點關注分散式系統中的一個基本問題——共識問題——以期對大量系統產生影響。
先前的工作研究了分散式儲存系統在硬體故障、軟體錯誤、網路中斷和人為錯誤情況下的可靠性。雲服務的興起導致了新的故障類型,包括安全故障、落後節點、配置故障、故障緩慢故障,以及最近由 Bronson 等人提出並由 Huang 等人進一步探索的亞穩態故障。
亞穩態故障描述了系統的一種狀態,儘管系統仍在運行,但由於持續的人為過載,性能極低。這裡強調“人為”一詞是因為過載並不完全是由於輸入流量造成的(儘管它最初可能是由輸入流量觸發的);相反,過載是由系統的某種缺陷造成的。亞穩態故障的一個例子是由於臨時突然的輸入流量急劇增加而觸發的永無止境的重試請求反饋迴路(稱為重試風暴)。臨時輸入流量過載會給系統帶來壓力,導致處理請求延遲,並導致觸發重試請求。使其成為亞穩態故障的原因是,重試請求本身會導致系統負載進一步增加;這就導致了一個重試請求的反饋迴路,增加了系統負載,從而導致更多的重試請求,等等。在這個階段,即使輸入流量減少到正常水平,重試請求的過載也是持續的,並且高到足以(人為地)維持過載。
現有的解決方案,如指數退避、斷路器和後進先出調度,被用於在監控期間減輕工作放大和亞穩態故障。然而,這些方法通常是針對特定的故障實例量身定制的,缺乏解決亞穩態故障的通用方法。