Hochleistungsfähiges und GPU-effizientes Servieren großer Sprachmodelle mit heterogenen Pipelines
Unser System FASTDECODE ermöglicht eine deutlich höhere Durchsatzrate beim Servieren großer Sprachmodelle, indem es die Verarbeitung der speicherintensiven Teile des Modells auf CPUs auslagert und die GPU-Ressourcen optimal ausnutzt.