本研究は、深層学習ハードウェアで用いられる整数行列乗算ユニット(IMMU)を、高性能計算(HPC)アプリケーションに活用する方法を探っている。
まず、Ozaki方式を用いることで、IMMUを使うことの理論的な利点を示した。具体的には以下の3点が挙げられる:
次に、NVIDIA GPUのINT8 Tensor Coresを用いてOzaki方式を実装し、精度、スループット、電力効率を評価した。入力行列の指数分布幅によってはトレードオフがあるものの、NVIDIA消費者向けGPUでは、cuBLASのDGEMMや既存のFP16 Tensor Coresを用いた実装よりも最大6倍高速に動作することを示した。
さらに、量子回路シミュレーションへの適用を行い、FP64の精度を維持したまま最大4.33倍の高速化を達成した。実用性を高めるため、自動的な精度調整メカニズムも実装した。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問