本論文は、深層学習推薦モデル(DLRM)の訓練における通信ボトルネックを解決するための手法を提案している。DLRMは大規模なエンベディングテーブルを必要とするため、複数のデバイスを使ったモデル並列化が必要となる。この際の全対全通信が訓練時間の大部分を占めるボトルネックとなっている。
提案手法では、エラー制限付きロスレス圧縮を用いて通信データサイズを削減する。具体的には以下の3つの取り組みを行っている:
これらの取り組みにより、Criteo Kaggleデータセットで1.38倍、Criteo Terabytesデータセットで1.30倍の訓練時間の短縮を実現している。また、精度への影響は0.02%以内に抑えられている。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Hao Feng, Bo... a las arxiv.org 10-02-2024
https://arxiv.org/pdf/2407.04272.pdfConsultas más profundas