Core Concepts
Designing a Spark optimizer for adaptive, fine-grained parameter tuning to optimize performance benefits and cost-performance preferences.
Abstract
ビッグデータクエリ処理のパラメータチューニングを最適化するために、Sparkオプティマイザーを設計しました。新しいAQEアーキテクチャでの各Sparkアプリケーションのすべての調整可能なパラメータ(「構成」と呼ばれる)を制御するこのオプティマイザーは、性能上の利点とユーザーのコストパフォーマンスニーズにより適応するために、理論的に正確な多目的最適化設定で調整問題をキャストします。
この研究では、混合パラメータ空間全体の最適構成を見つけることが重要であり、ランタイムで細かい粒度で調整することが目的です。コンテキストパラメータ𝜽𝑐はクエリレベルでSparkコンテキストを構成し、LQP変換およびクエリステージ(QS)最適化用の{𝜽𝒑}および{𝜽𝒔}決定変数を調整します。
Stats
TPC-HおよびTPC-DSベンチマークを使用した評価結果では、平均61%および64%のレイテンシ削減率が実現されました。
最も競争力のあるMOO方法は、2.4〜15秒という高い解決時間で18〜25%しかレイテンシを削減していません。
パレート最適セットから1つの解決策を返すためにSO問題を解決することは、Paretoフロント全体に均等に配置されたParetoポイントを返す可能性が低いです。
Quotes
"Our work on parameter tuning of big data query systems is particularly motivated by two recent trends: Adaptive Query Execution and Cost-performance reasoning in cloud deployment."
"Our evaluation results using the TPC-H and TPC-DS benchmarks demonstrate the superior performance of our approach."
"When prioritizing latency, it achieves an average of 61% and 64% reduction for TPC-H and TPC-DS, respectively."