이 논문은 CPU와 GPU 아키텍처에 대한 포터블하고 효율적인 코드 구조를 제공하는 방법을 다룬다. 구체적으로 Alya의 비압축성 유동 모듈에서 우변 항 조립 부분을 최적화하였다.
초기 OpenACC 기반 GPU 포팅 버전은 CPU 대비 4-5배 느린 성능을 보였다. 이를 개선하기 위해 다음과 같은 조치를 취했다:
이러한 조치를 통해 GPU 성능을 50배 이상 향상시켰다(약 2.5 TF/s FP64). CPU 성능도 5배 향상되었다(약 1.0 TF/s FP64).
이 연구 결과는 Alya와 다른 응용 프로그램의 관련 커널에 대해 통일된 but 여전히 효율적인 코드 구조를 구현하는 데 활용될 수 있다. 이는 수동 코딩 또는 자동 코드 생성 프레임워크를 통해 실현될 수 있다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Herbert Owen... kl. arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.08777.pdfDybere Forespørgsler