Effiziente Implementierung von Sparse-Konvolution auf GPUs mit CUDA für die 3D-Punktwolkenverarbeitung in eingebetteten Systemen
Diese Arbeit präsentiert eine innovative Implementierung von Sparse-Konvolutions-Operatoren unter Verwendung von CUDA, die auf maximaler Parallelität und effizienter Datenzugriffsmusteroptimierung basiert. Sie führt einen neuartigen Ansatz zur Handhabung von Tensordaten innerhalb des CUDA-Frameworks ein, der die Benutzerfreundlichkeit von PyTorch nutzt und gleichzeitig die Leistungsfähigkeit von CUDA ausschöpft.