Core Concepts
GPU上の複数インスタンス環境では、共有されているL3 TLBの競合が性能低下の主要因となっている。提案手法のSTARは、TLBエントリ内のサブエントリを複数のベースアドレス間で動的に共有することで、サブエントリの利用率を最適化し、全体的な性能を30.2%改善する。
Abstract
本論文は、NVIDIA社のMulti-Instance GPU (MIG)テクノロジーにおける課題を分析し、それを解決するためのハードウェアデザインを提案している。
MIGでは、GPUリソースを複数のインスタンスに分割して独立して利用できるが、最後段のL3 TLBは共有されたままとなっている。この共有によって、コ実行するアプリケーション間でTLBの競合が発生し、性能が大幅に低下する。
分析の結果、この性能低下の主な原因は、TLBエントリ内のサブエントリの利用率が低いことが明らかになった。アプリケーションによってはTLBエントリの一部しか使用せずに、それらが頻繁に入れ替わるため、サブエントリの活用が十分ではない。
そこで本論文では、STAR (Sub-EnTry ShAring-AwaRe) TLBを提案している。STARでは、TLBエントリ内のサブエントリを複数のベースアドレス間で動的に共有することで、サブエントリの利用率を最大化する。具体的には、新しいアドレス変換を挿入する際に、サブエントリの利用状況に応じて共有するかどうかを判断し、共有する場合はサブエントリの割り当てを最適化する。また、共有状態と非共有状態を動的に切り替えることで、アプリケーションの需要の変化に適応できる。
評価の結果、STARは様々な複数テナントワークロードにおいて平均30.2%の性能向上を達成することが示された。これは、従来のTLBの最適化手法と比べても優れた性能改善効果を持つ。
Stats
TLBエントリ内の平均サブエントリ利用率が50%未満の場合が多い
TLBエントリの80%以上がL3 TLBの容量を超えるリユース距離を持つ
Quotes
"L3 TLBの競合が深刻な性能低下を引き起こす"
"サブエントリの利用率が低いことが主要な問題"
"STARは平均30.2%の性能向上を達成する"