Centrala begrepp
선형대수 연산 최적화를 위한 FastKron 알고리즘 소개
Statistik
FastKron은 기존 구현체에 비해 최대 40.7배 빠른 성능을 제공합니다.
16개의 NVIDIA Tesla V100 GPU 시스템에서 FastKron은 CTF보다 7.85배, Distal보다 5.33배 빠릅니다.
Citat
"FastKron은 선형대수 연산에 독립적이며, 단일 및 다중 GPU 시나리오에 대한 새로운 최적화를 가능하게 합니다."
"기존 구현체는 Kron-Matmul에 최적화되지 않은 선형대수 연산을 사용하여 성능 저하를 초래합니다."