최신 NVIDIA Ampere(A100) 및 Hopper(GH200) GPU 아키텍처에서 스텐실 기반 커널의 고도로 최적화된 구현을 통해 최대 58%의 성능 향상을 달성했습니다. 또한 OpenACC 및 OpenMP 프로그래밍 모델에 대한 새로운 비동기 실행 전략을 제안하여 최대 42%의 성능 향상을 달성했습니다.