本研究は、データ合成アルゴリズムの体系的な評価に取り組んでいる。
データ合成の評価には、以下の3つの側面が重要である:
忠実性: 合成データの分布が元のデータ分布に近いかどうか。Wasserstein距離を用いて、数値属性、カテゴリカル属性、混合属性の統一的な評価を行う。
プライバシー: 合成データの個人情報漏洩リスクを評価する。既存の類似度ベースの指標の問題点を指摘し、新しい指標であるメンバーシップ開示スコア(MDS)を提案する。
ユーティリティ: 合成データの有用性を評価する。機械学習モデルの性能低下を捉えるマシンラーニングアフィニティ(MLA)と、範囲クエリーの誤差を指標として導入する。
さらに、モデルのハイパーパラメータ調整を行う統一的な目的関数を提案し、SynMeterと呼ばれる評価フレームワークを実装した。
広範な実験の結果、以下の興味深い知見が得られた:
本研究の提案手法と知見は、データ合成アルゴリズムの理解と改善に役立つと考えられる。
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Yuntao Du,Ni... : arxiv.org 04-16-2024
https://arxiv.org/pdf/2402.06806.pdfDaha Derin Sorular