Concetti Chiave
複雑な調査設計に基づく機密データから、差分プライバシーを満たす検証指標を提案する。これにより、合成データの品質について二次分析者に有用なフィードバックを提供できる。
Sintesi
本研究では、複雑な調査設計に基づく機密データから合成データを生成する際の検証指標を提案している。具体的には以下の通りである:
機密データを無作為に分割し、各分割データセットで調査加重推定量を計算する。
合成データの推定量と各分割データセットの推定量の一致度を測る。
差分プライバシーを満たすため、この一致度指標にラプラス・メカニズムによる摂動を加える。
事後分布のメディアンを検証指標として提供する。
シミュレーション実験の結果、提案手法は合成データの品質を適切に反映することが示された。特に、調整済み許容区間を用いる場合に良好な性能が得られた。一方、固定の許容区間では適切な検証ができないことが明らかになった。
本手法は、複雑調査設計に基づく機密データの合成データ利用時に、二次分析者に有用なフィードバックを提供できる。
Statistiche
合成データの推定量ˆτ0は真の母集団総計τから大きく乖離している可能性がある。
機密データの加重推定量ˆτは合成データの推定量ˆτ0の3倍程度の標準偏差の範囲に収まる確率は0.3程度である。
調整済み許容区間を用いた場合、ˆτがその区間に収まる確率は0.5~0.8程度である。
Citazioni
"合成データの品質は、使用したモデルの精度に大きく依存する。そのため、二次分析者に合成データの品質に関するフィードバックを提供することが重要である。"
"差分プライバシーを満たす検証指標を提供することで、機密データの保護と二次分析者のニーズのバランスを取ることができる。"