Core Concepts
LLAMPは、MPI プログラムの通信遅延耐性を効率的に分析し、定量化することができる。
Abstract
本論文では、LLAMP (LogGPS and Linear Programming based Analyzer for MPI Programs) と呼ばれる新しいツールチェーンを紹介する。LLAMPは、LogGPS モデルと線形計画法を活用して、HPC アプリケーションの通信遅延耐性を効率的に評価する。
まず、MPI トレースからプログラムの実行グラフを生成し、これを線形計画問題に変換する。これにより、アプリケーションのランタイムや通信遅延感度などの重要な指標を効率的に計算できる。
LLAMPの有効性を示すため、様々なMPIアプリケーション(MILC、LULESH、LAMMPS)で検証を行った。その結果、LLAMPの予測精度は一般に2%以下の相対誤差であることが分かった。
さらに、ICON気象・気候モデルを用いた事例研究を行い、LLAMPの広範な適用性を示した。具体的には、集団アルゴリズムや通信トポロジの影響を評価した。
Stats
MILCの実行時間は、ネットワーク遅延が20マイクロ秒を超えると大幅に劣化する。
LULESHは、ネットワーク遅延が20マイクロ秒以下では性能への影響が小さい。
ICONは、650マイクロ秒以上の遅延でも性能が大きく低下しない。
Quotes
"大規模MPI アプリケーションでは、通信と計算のパターンが固有であるため、ネットワーク遅延耐性に大きな違いがある。"
"アプリケーションの遅延耐性を正確に把握することは、レジリエントで効率的なシステムを設計する上で不可欠である。"