Core Concepts
非同期ヤコビ法の収束理論を活用し、受信したデータの検証と拒否を行うことで、データ破損に対する耐性を高めた。
Abstract
本論文では、高性能コンピューティング(HPC)やクラウドコンピューティング(CC)環境から、エッジデバイスへと科学計算を移行する際の課題に取り組んでいる。エッジ環境では、データの収集や保存、同期が困難であるため、従来のHPCやCCで用いられる耐障害性アプローチ(チェックポイントと再実行、冗長計算)が適用できない。
本研究では、アルゴリズムベースの耐障害性(ABFT)アプローチに着目し、非同期ヤコビ法の変種を提案している。提案手法では、隣接ノードから受信したデータの差分が解析的な上限を超えている場合、そのデータを拒否する。数値実験の結果、提案手法は自然および悪意のあるデータ破損に対する収束を回復することが示された。
Stats
データ破損の確率が高いほど、収束までの時間が長くなり、ばらつきも大きくなる。
Quotes
データ破損の確率が0.04の場合でも、ほとんどの実行が収束に至った。