최신 NVIDIA Ampere(A100) 및 Hopper(GH200) GPU 아키텍처에서 스텐실 기반 커널의 고도로 최적화된 구현을 통해 최대 58%의 성능 향상을 달성했습니다. 또한 OpenACC 및 OpenMP 프로그래밍 모델에 대한 새로운 비동기 실행 전략을 제안하여 최대 42%의 성능 향상을 달성했습니다.
다양한 GPU 기반 슈퍼컴퓨팅 플랫폼에서 효율적으로 실행될 수 있는 단일 코드베이스를 개발하고 유지하는 것이 과학 소프트웨어 개발의 생산성을 보장하는 데 필수적이다. 이 연구에서는 SYCL, RAJA, Kokkos 프로그래밍 모델이 성능 이식성을 제공하는 데 있어 큰 잠재력을 보여주었다.