核心概念
본 연구는 SIMD 연산, 3M 방법 등의 기술을 활용하여 복소수 다중 정밀도 LU 분해의 성능을 크게 향상시켰다. 특히 AVX2 기반 정규 LU 분해가 기존 구현 대비 최대 726배 빠른 성능을 보였다.
摘要
본 연구는 복소수 다중 정밀도 LU 분해의 성능 향상을 위한 다양한 기술을 제안하고 평가하였다.
- 복소수 행렬 곱셈에서 3M 방법을 활용하여 약 1.3배 성능 향상을 달성하였다.
- AVX2 SIMD 연산을 활용하여 복소수 기본 선형 연산을 가속화하였다.
- OpenMP 병렬화를 통해 복소수 행렬 곱셈과 LU 분해의 성능을 추가로 향상시켰다.
- 다양한 정밀도(DD, TD, QD)에서 벤치마크 테스트를 수행하였으며, AVX2 기반 정규 LU 분해가 가장 빠른 성능을 보였다.
- DD 정밀도에서 최대 726배, QD 정밀도에서 최대 91배 빠른 성능을 달성하였다.
- 향후 과제로 희소 행렬 지원, 재현 가능한 계산 성능 향상, Python 환경에서의 고성능 다중 정밀도 계산 등을 제시하였다.
统计
DD 정밀도, n=1024에서 MPLAPACK 대비 726배 빠른 성능
QD 정밀도, n=1024에서 MPLAPACK 대비 91배 빠른 성능
引用
"본 연구는 SIMD 연산, 3M 방법 등의 기술을 활용하여 복소수 다중 정밀도 LU 분해의 성능을 크게 향상시켰다."
"AVX2 기반 정규 LU 분해가 기존 구현 대비 최대 726배 빠른 성능을 보였다."