Core Concepts
データ分析ランタイムメトリクスのプライバシー保護共有アプローチは、差分プライバシーとデータ合成に基づいて、完全匿名化されたトレーニングデータがパフォーマンス予測精度を大幅に維持することを示しています。
Abstract
大規模なデータ分析ワークロードのパフォーマンスモデリングは、クラスタリソースの割り当てやジョブスケジューリングの効率を向上させることができます。しかし、これらのワークロードのパフォーマンスは、ジョブ入力や割り当てられたクラスタリソースなど、多くの要因に影響を受けます。その結果、パフォーマンスモデルには多くのトレーニングデータが必要です。このデータは、協力組織間でランタイムメトリクスを交換することで取得できます。しかし、すべての組織がそのようなメタデータを公開する意欲があるわけではありません。本稿では、差分プライバシーとデータ合成に基づいたランタイムメトリクス共有のプライバシー保護アプローチを提案しています。736件のSparkジョブ実行から得られたパフォーマンスデータに対する評価では、完全匿名化されたトレーニングデータは主に性能予測精度を維持しました。
Stats
データセットに含まれるSparkジョブ実行数:736件
オリジナルなサンプル数30以下では、合成トレーニングデータ使用時に平均的な性能モデル精度が1%低下したことが示されました。
Quotes
"我々は差分プライバシーおよびデータ合成に基づいたランタイムメトリクス共有のプライバシー保護アプローチを提案します"
"追加的な合成トレーニングデータは一定点以上でモデル精度に目立った影韓しが見られません"
"オリジナルなサンプル数30以下では、合成トレーニングデータ使用時に平均的な性能モデル精度が1%低下した"