GPUで不規則な問題を効率的に処理するための予測実行カーネル選択
核心概念
GPUは規則的な問題向けに設計されているため、不規則データを処理する際に負荷の偏りが発生する。我々は、不規則ワークロードに対するカーネルを動的に選択するための機械学習ベースの予測フレームワーク「Seer」を提案する。
要約
本論文では、不規則並列計算の問題に対して、最適なカーネルを動的に選択するための予測フレームワーク「Seer」を提案している。
まず、GPUベンチマーキングを行い、様々なカーネルの性能データを収集する。次に、動的に計算される特徴量を収集するためのカーネルを実行する。これらのデータを用いて、決定木ベースの予測モデルを構築する。モデルには、既知の特徴量のみを使う簡易モデルと、動的に収集した特徴量も使うより高精度なモデルの2種類がある。さらに、これらのモデルを選択するためのメタモデルも構築する。
runtime予測の精度は、既知特徴量モデルが77%、動的特徴量モデルが83%、メタモデルが95%となった。メタモデルは、特徴量収集コストを考慮しつつ、最適なモデルを選択することができる。
本手法をSparse Matrix Vector Multiplication (SpMV)のケーススタディに適用した結果、Oracle選択に比べて2倍の性能向上、全体で6.5倍の平均速度向上が得られた。また、前処理コストの償却も適切に予測できることを示した。
Seer
統計
SpMVの最速実行時間は、データセット全体で644 msから6,596 msの範囲にある。
前処理コストは、データセットによって大きく変動し、最大で2,000 msに達する。
引用
"GPUは規則的な問題向けに設計されているため、不規則データを処理する際に負荷の偏りが発生する。"
"我々は、不規則ワークロードに対するカーネルを動的に選択するための機械学習ベースの予測フレームワーク「Seer」を提案する。"
深掘り質問
不規則並列計算の問題に対して、どのような新しいハードウェアアーキテクチャの提案が考えられるか?
不規則並列計算の問題に対処するための新しいハードウェアアーキテクチャの提案として、以下の点が考えられます。
柔軟性と拡張性: 不規則なデータ処理に適した柔軟性と拡張性を持つアーキテクチャが必要です。これにより、異なる種類の不規則な並列計算問題に対応できます。
メモリ階層の最適化: メモリアクセスパターンに合わせてメモリ階層を最適化することで、不規則なデータアクセスに対する効率的な処理が可能となります。
並列処理の最適化: 不規則なデータに対する並列処理を最適化するための専用のハードウェア機能を組み込むことで、負荷のバランスやデータ依存性の問題を解決できます。
機械学習の統合: 機械学習アルゴリズムをハードウェアアーキテクチャに組み込むことで、ランタイムでの最適なカーネル選択やデータ構造の選択を自動化することが可能となります。
これらの要素を組み合わせた新しいハードウェアアーキテクチャの提案は、不規則な並列計算問題に効果的に対処することが期待されます。