核心概念
SIPは、GPUネイティブ命令の自動最適化を可能にし、既存の手書きCUDAカーネルのパフォーマンスを向上させる。
摘要
この記事では、大規模言語モデル(LLMs)のトレーニングと推論におけるCUDAカーネルの最適化に焦点を当てています。以下は内容の概要です:
Abstract:
- LLMsは重要な作業負荷となっており、CUDAカーネルの最適化が求められている。
Introduction:
- LLMsは深層ニューラルネットワークであり、各ドメインで高性能を発揮している。
Background and motivation:
- GPUプログラムにおけるsassレベルでの最適化が必要性が示されている。
SIP:
- SIPはGPUネイティブ命令スケジュールの自動最適化を行う新しいアプローチである。
Implementation:
- Tritonと統合されたSIPは、既存の手書きCUDAカーネルを改善するために使用される。
Evaluation:
- SIPにより、既存のカーネルパフォーマンスが約10%向上することが示されている。
统计
Experiments show that SIP can further improve CUDA kernel throughput by automatically discovering better GPU native instruction schedules and the optimized schedules are tested by 10 million test samples.
The overall execution duration of the fused attention kernel of SIP (1.29ms) is 6.2% lower than Triton (1.37ms).
For the GEMM LeakyReLU kernel, the SIP-optimized schedule achieves a 12.27% lower latency, and both the compute and memory throughput are higher.