核心概念
ハードウェアの不確定性を制御し、検証可能なトレーニングを実現する方法を提案する。
要約
- AIシステムの計算要求が増加し、クライアントに代わってモデルをトレーニングするサービスが登場している。
- 検証可能なトレーニングは、正確なトレーニングとデータ汚染などの攻撃から保護することが重要である。
- ハードウェアの不確定性により、GPUタイプ間でのトレーニングプロセスの正確な複製が困難である課題がある。
- 高い精度でモデルをトレーニングし、丸め処理と適応的しきい値手法に基づく丸め決定を行うことで、ハードウェアの不確定性を制御する方法を提案する。
- NVIDIA GPU(A40、Titan XP、RTX 2080 Ti)上でResNet-50(23M)およびGPT-2(117M)モデルの完全なトレーニングおよび微調整においてFP32精度で正確なトレーニング複製を達成した。
導入
AIシステムの計算要求増加に伴い、クライアント向けにモデルをトレーニングするサービスが登場している。
メソッド
- ハードウェア不確定性制御方法:高精度で丸め処理と適応的しきい値手法に基づく丸め決定を組み合わせて提案。
- 3つのNVIDIA GPU上でResNet-50およびGPT-2モデルの完全なトレーニングと微調整に成功。
結果
- 提案手法は非常に効率的かつ信頼性が高く、既存手法よりもストレージコストや時間コストが大幅に削減された。
統計
提案手法はFP32精度でResNet-50(23M)およびGPT-2(117M)モデルの完全なトレーニングおよび微調整に成功した。
引用
"Two models trained on different GPU types can learn different weights, posing a challenge for verifying training correctness."
"Efficient encoding reduces storage requirements by 77%."