核心概念
データ合成は、データプライバシーを保護しつつデータを活用する重要なアプローチである。多数のデータ合成アルゴリズムが提案されているが、それらの長所と短所を包括的に理解することは困難である。本研究では、データ合成アルゴリズムを体系的に評価するための枠組みを提案する。具体的には、既存の評価指標の問題点を指摘し、忠実性、プライバシー、ユーティリティの観点から新しい評価指標を導入する。提案した指標に基づき、8種類の合成アルゴリズムを12のデータセットで評価した結果、興味深い知見が得られた。
摘要
本研究は、データ合成アルゴリズムの体系的な評価に取り組んでいる。
データ合成の評価には、以下の3つの側面が重要である:
-
忠実性: 合成データの分布が元のデータ分布に近いかどうか。Wasserstein距離を用いて、数値属性、カテゴリカル属性、混合属性の統一的な評価を行う。
-
プライバシー: 合成データの個人情報漏洩リスクを評価する。既存の類似度ベースの指標の問題点を指摘し、新しい指標であるメンバーシップ開示スコア(MDS)を提案する。
-
ユーティリティ: 合成データの有用性を評価する。機械学習モデルの性能低下を捉えるマシンラーニングアフィニティ(MLA)と、範囲クエリーの誤差を指標として導入する。
さらに、モデルのハイパーパラメータ調整を行う統一的な目的関数を提案し、SynMeterと呼ばれる評価フレームワークを実装した。
広範な実験の結果、以下の興味深い知見が得られた:
- ディフュージョンモデルは表形式データの合成に驚くほど優れている。ただし、プライバシー保護の観点では課題がある。
- 統計的手法は依然として競争力のある合成手法である。特に、プライバシー予算が小さい場合に優れた性能を発揮する。
- 大規模言語モデルベースの手法は意味情報を活用できる合成手法である。
- 広く使われているCTGANは、複雑なデータセットでは限界がある。
本研究の提案手法と知見は、データ合成アルゴリズムの理解と改善に役立つと考えられる。
統計資料
合成データと元データの最近傍点間の距離の平均は、元データを半分に分割したものと同程度である。
合成データと元データの相関係数の差は、0.1以内に収まっている。
合成データと元データの範囲クエリーの誤差は、0.2以内に収まっている。
引述
"データ合成は、データプライバシーを保護しつつデータを活用する重要なアプローチである。"
"既存の評価指標には問題点があり、忠実性、プライバシー、ユーティリティの観点から新しい評価指標を導入する必要がある。"
"ディフュージョンモデルは表形式データの合成に驚くほど優れているが、プライバシー保護の観点では課題がある。"