本研究では、CXLメモリデバイスの一般目的コアを活用したワークロードのオフロードについて検討している。
まず、機械学習推論とベクトルデータベースの2つのメモリ集約型ワークロードを対象に、NUMA環境を用いてその特性を分析した。
機械学習推論では、中間結果テンサーの配置が重要であることが分かった。提案手法では、モデルの計算と メモリ配置を最適化することで、ほとんどのデータを遠隔メモリに配置しつつ、わずか20%の性能低下で済むことを示した。
ベクトルデータベースでは、特に距離計算やクエリ処理などのカーネルがメモリ依存性が高いことが分かった。提案手法では、これらのカーネルをCXLメモリデバイスの一般目的コアにオフロードすることで、最大7倍の性能向上が得られることを示した。
オフロードのオーバーヘッドは小さく、データの可視化などの課題を解決すれば、さらなる最適化が可能と考えられる。
本研究は、CXLメモリデバイスの一般目的コアを活用することで、メモリ集約型ワークロードの性能を大幅に改善できる可能性を示した重要な取り組みである。
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Jon Hermes,J... о arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02868.pdfГлибші Запити