본 연구는 GPU 네이티브 명령어 수준에서의 자동 최적화 기법인 SIP(Stochastic Instruction Perturbation)를 소개한다. SIP는 다음과 같은 과정을 통해 GPU 커널의 성능을 향상시킨다:
실험 결과, SIP는 대표적인 LLM 워크로드인 Fused Attention과 Fused GEMM LeakyReLU 커널에서 각각 6.2%, 12.27%의 성능 향상을 달성했다. 이는 기존 Triton 구현 대비 향상된 것으로, 특히 메모리 처리량 개선에 기인한 것으로 분석된다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Guoliang He,... a las arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16863.pdfConsultas más profundas