Core Concepts
COnfLUX 2.5D LU 分解アルゴリズムの理論的な枠組みと実装について、上限、実験手法、下限に関する潜在的な問題点を指摘し、並列行列分解アルゴリズムの開発と理解を深化させることを目的とする。
Abstract
本論文は、Kwasniewski らによる COnfLUX 2.5D LU 分解アルゴリズムに関する研究を再検討したものである。
上限の問題:
A10 領域のパネル分解と A01 領域の TRSM で使用される 1D 分解では、すべてのプロセッサの通信能力を十分に活用できず、通信帯域コストを過小評価している可能性がある。
論文中の式(1)では、すべてのp個のプロセッサが関与しているとしているが、実際には最大で(p^(1/2)_1 * c)個のプロセッサしか関与していない。
修正した式(2)と(3)では、通信帯域コストがΩ(n^2/p^(1/2))またはΩ(n^2/p^(1/3))となり、論文の主張よりも大きくなる。
実験手法の問題:
論文では通信最適化設定のp^(1/3) x p^(1/3) x p^(1/3)を評価していないが、実装コードでは√p x √p x 1 または √(p/2) x √(p/2) x 2 の設定しか使用していない。
この不一致は、提案アルゴリズムの通信最適性に関する主張の妥当性に疑問を投げかける。
下限導出の問題:
並列計算では、I/O 操作の総数が通常プロセッサ数に比例して増加するが、原論文のLemma 7ではこの点を考慮していない。
また、すべてのプロセッサが常に計算に関与しているわけではないため、単純にp で除することは適切ではない可能性がある。
全体として、本論文は COnfLUX アルゴリズムの理解を深化させ、並列行列分解アルゴリズムの開発に向けた示唆を提供することを目的としている。
Stats
(n - tv)vc / p^(1/2)_1 c = (n - tv)v / p^(1/2)_1
n/v
Σ
t=1
(n - tv)vc / p^(1/2)_1 c = n^2 / p^(1/2)