Core Concepts
ARM 코텍스-M4와 애플 M2 플랫폼에서 Dilithium 서명 체계의 희소 다항식 곱셈을 최적화하여 성능을 크게 향상시켰다.
Abstract
이 연구는 ARM 코텍스-M4와 애플 M2 플랫폼에서 Dilithium 서명 체계의 효율적인 희소 다항식 곱셈 구현 방법을 제안한다.
ARM 코텍스-M4의 경우 스택 사용량 최적화에 초점을 맞추었고, 애플 M2의 경우 계산 효율성 향상에 중점을 두었다.
희소 다항식 곱셈을 위해 다음과 같은 기법들을 도입했다:
도전 다항식 인코딩 및 분기 없는 희소 다항식 곱셈 구현
ARM 코텍스-M4에서 DSP 명령어를 활용한 병렬 처리
애플 M2에서 ARM NEON 내장 함수를 이용한 벡터화된 희소 다항식 곱셈 및 무한 노름 검사 병합
이를 통해 ARM 코텍스-M4에서 최대 30%, 애플 M2에서 최대 55%의 성능 향상을 달성했다. 또한 서명 과정에서 스택 사용량을 10.8%, 1.2%, 7.7% 줄였고, 서명 성능도 0.4%에서 0.8% 개선했다. 키 생성 및 검증 절차에서도 0.4%에서 3.2%의 성능 향상을 보였다.
Stats
ARM 코텍스-M4에서 Dilithium2, Dilithium3, Dilithium5의 단일 다항식 곱셈 성능이 각각 30%, 11%, 약간 저하되었다.
애플 M2에서 Dilithium2, Dilithium3, Dilithium5의 cs1, cs2 다항식 벡터 곱셈 성능이 각각 33%에서 55% 향상되었다.
ARM 코텍스-M4에서 Dilithium2, Dilithium3, Dilithium5의 키 생성, 서명, 검증 성능이 각각 2.0%-3.2%, 0.4%-0.8%, 0.4%-0.7% 향상되었다.
애플 M2에서 Dilithium2, Dilithium3, Dilithium5의 서명 성능이 각각 10%에서 11% 향상되었다.
Quotes
"ARM 코텍스-M4는 자원 제한적인 장치에서 널리 사용되는 반면, 애플 M2는 높은 성능과 다재다능성을 강조하는 모바일 장치에서 주로 발견된다."
"우리의 최적화 전략은 ARM 코텍스-M4와 애플 M2 간에 차이가 있다. 전자의 경우 스택 사용량 최적화에 중점을 두고, 후자의 경우 계산 효율성 향상에 초점을 맞춘다."