본 연구는 GPU 네이티브 명령어 수준에서의 자동 최적화 기법인 SIP(Stochastic Instruction Perturbation)를 소개한다. SIP는 다음과 같은 과정을 통해 GPU 커널의 성능을 향상시킨다:
실험 결과, SIP는 대표적인 LLM 워크로드인 Fused Attention과 Fused GEMM LeakyReLU 커널에서 각각 6.2%, 12.27%의 성능 향상을 달성했다. 이는 기존 Triton 구현 대비 향상된 것으로, 특히 메모리 처리량 개선에 기인한 것으로 분석된다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Guoliang He,... um arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16863.pdfTiefere Fragen