本論文では、AntDTと呼ばれる自己適応型分散学習フレームワークを提案している。AntDTは以下の4つのコンポーネントから構成される:
状態管理型動的データシャーディングサービス(Stateful DDS)
モニター
コントローラー
エージェント
AntDTは、データ割り当てや障害耐性の面倒な詳細を隠蔽しつつ、様々なストラグラー緩和手法を柔軟に組み合わせることができる。本論文では、非専用クラスタ向けのAntDT-NDソリューションと専用クラスタ向けのAntDT-DDソリューションを提案し、実験と実際の産業デプロイメントで高い効率性を示している。AntDTは、従来手法と比べて3倍以上の高速化を実現し、Alipayのホームページ推薦モデルの学習時間を27.8時間から5.4時間に短縮できた。
To Another Language
from source content
arxiv.org
Djupare frågor