Core Concepts
実世界のPIMアーキテクチャにおける一般的な分散最適化アルゴリズムの性能、正確性、スケーラビリティを理解することが重要である。
Abstract
本論文では、以下の取り組みを行った:
代表的な中央集権型分散最適化アルゴリズムをUPMEMの実世界一般目的PIMシステムに実装した。
大規模データセットであるYFCC100M-HNfc6とCriteoを使用して、これらのアルゴリズムの性能、正確性、スケーラビリティを徹底的に評価した。
CPU、GPUのベースラインと比較した。
分散最適化アルゴリズムに適応するためのPIMハードウェアの設計上の含意と、アルゴリズム-ハードウェアの共同設計の必要性について議論した。
主な発見事項は以下の通り:
一般目的のPIMアーキテクチャは、演算とデータ型がPIMハードウェアでネイティブにサポートされている場合、多くのメモリ依存型MLトレーニングワークロードに対して、最先端のCPUやGPUの代替手段となり得る。
PIMに最適なアルゴリズムを慎重に選択することの重要性。
一般的な信念に反して、現代のPIMアーキテクチャは多くのデータ集約型MLトレーニングワークロードに対して、ノード数に比例してスケールアップしない。
Stats
MA-SGDのLRでは、PIMとパラメータサーバ間の通信と同期に要する時間がADMMの25.10倍かかる。
GA-SGDのLRでは、PIMとパラメータサーバ間の通信と同期に要する時間がADMMの640.35倍かかる。
MA-SGDのLRでは、PIM上の計算時間がデータ移動時間の6.38倍かかる。
MA-SGDのSVMでは、PIM上の計算時間がデータ移動時間の2.46倍かかる。
GA-SGDのSVMでは、PIM上のデータ移動時間が計算時間の14.29倍かかる。