Concetti Chiave
Die Studie untersucht den COnfLUX-Algorithmus, eine Variante des 2.5D LU-Faktorisierungsalgorithmus mit Turnierpivotisierung, und identifiziert potenzielle Probleme in Bezug auf die Schätzung der oberen Schranke, die empirischen Untersuchungsmethoden und die entsprechende untere Schranke.
Sintesi
Die Studie führt eine technische Neuuntersuchung des COnfLUX-Algorithmus und der zugehörigen Analysen durch, um die identifizierten Bedenken anzusprechen.
- Obere Schranke:
- Es wurde eine Diskrepanz zwischen den Analysen der Autoren und den tatsächlichen Kosten des Algorithmus beobachtet.
- Die Verwendung einer 1D-Zerlegung für bestimmte Regionen (für Panelfaktorisierung und TRSM) im Algorithmus nutzt die Kommunikationsfähigkeiten aller Prozessoren möglicherweise nicht vollständig, was zu einer Unterschätzung der Kommunikationsbandbreitenkosten führt.
- Die korrigierte Formel zeigt, dass die Kommunikationsbandbreitenkosten asymptotisch größer sind als die beanspruchten Kosten im Original.
- Empirische Methoden:
- Die Autoren haben nur bestimmte Prozessorgitterkonfigurationen getestet und die in der Arbeit angegebenen kommunikationsoptimalen Konfigurationen nicht bewertet.
- Dies könnte die Gültigkeit der Behauptung zur Kommunikationsoptimalität des vorgeschlagenen COnfLUX-Algorithmus beeinflussen.
- Untere Schranke:
- Die Ableitung der unteren Schranke kann die Sache vereinfachen, indem sie nicht berücksichtigt, dass in der Parallelverarbeitung die Gesamtzahl der E/A-Vorgänge typischerweise proportional zur Anzahl der Prozessoren zunimmt, was in der Regel asymptotisch größer ist als im sequenziellen Fall.
Insgesamt zeigt die Studie, dass der COnfLUX-Algorithmus eine Kommunikationsbandbreitenkosten von mindestens Ω(n²/p¹/²) oder Ω(n²/p¹/³) aufweist, was die Behauptungen im Originalpapier übersteigt. Dies ist hauptsächlich auf die Verwendung eines 1D-Zerlegungsansatzes für die A10- und A01-Regionen zurückzuführen, der das Potenzial aller p Prozessoren für eine effiziente Kommunikation während des Reduktionsprozesses nicht vollständig ausschöpft.
Statistiche
Die Kommunikationsbandbreitenkosten für die Reduktion in den A10- und A01-Regionen können wie folgt korrigiert werden:
(n - tv)vc / (p¹/² c) = (n - tv)v / p¹/²
Die kumulativen Bandbreitenkosten über alle Iterationen hinweg sind dann:
Σ(n - tv)v / p¹/² = O(n²/p¹/²)
Dies kann vereinfacht werden zu O(n²/p¹/²) oder O(n²/p¹/³), je nach Prozessorgitterkonfiguration.
Citazioni
Keine relevanten Zitate identifiziert.