Core Concepts
複素LU分解の高速化戦略と性能評価に焦点を当てる。
Abstract
直接法は線形方程式の解を求めるための重要なアルゴリズムであり、LU分解はその計算時間の大部分を占める。
複素LU分解の効率向上策を探り、SIMD化と3M法を組み合わせた複素行列乗算による効率向上を検討。
MPLAPACKでの直接法実装と比較し、計算時間と数値誤差に焦点を当てたベンチマークテストを実施。
論文では、複素基本線形演算やLU分解の高速化戦略について議論されている。
Introduction
直接法は線形方程式の一般的な解法であり、HPLベンチマークテストではトップ500スーパーコンピュータが使用している。
混合精度計算への関心が高まっており、問題要件に応じて浮動小数点数の精度桁数を調整することで計算パフォーマンスが向上する。
Acceleration of complex basic linear computation
SIMD化された実数基本線形演算やAVX2を用いたLU分解が開発されており、AVX2による高速な演算処理が可能。
複素BLASや3M法による複素行列乗算も実装されており、AVX2 SIMD化された演算処理が効果的であることが示唆されている。
Benchmark test for complex matrix multiplication
EPYCコンピューティング環境を使用してベンチマークテストを実施し、DD、TD、QD精度で行列積C := ABの計算時間や最大誤差を測定。
DD精度ではStrassenやOzakiスキームによる高速化手法が有効であり、AVX2 SIMD化した通常LU分解が最も優れた性能を示す。
Acceleration of multiple-precision complex LU decomposition
計算時間や相対誤差からAVX2 SIMD化した通常LU分解が最も優れた性能を持つことが示されており、32スレッドでも優れた並列処理性能を発揮する。
Summary of high-performance complex LU decomposition
AVX2 SIMD化した通常LU分解はDDおよびQD精度で最も高速な性能を示し、並列処理でも優れた結果を残す。
Stats
この研究ではAVX2 SIMD化した通常LU分解が最も高速な性能を持つことが示唆されています。