แนวคิดหลัก
差分プライバシーを用いた人口統計データの公開には、集計統計への雑音付加と合成データ生成の2つのアプローチがある。集計統計のトップダウンアルゴリズムは既知のクエリに対して高い精度を達成するが、未知のクエリには対応できない。一方、合成データ生成は未知のクエリにも対応できるが、既知のクエリに対する精度が低い。本研究では、これらのアプローチの長所短所を明らかにし、ユースケースに応じた適切な手法の選択を提案する。
บทคัดย่อ
本研究は、階層的な人口統計データの差分プライバシー保護に関する2つのアプローチ、集計統計のトップダウンアルゴリズムと合成データ生成、の比較を行っている。
トップダウンアルゴリズムは、既知のクエリに対して高い精度を達成するが、未知のクエリには対応できない。
合成データ生成は、未知のクエリにも対応できるが、既知のクエリに対する精度が低い。
トップダウンアルゴリズムは、既知のクエリに対して合成データ生成手法よりも20倍以上低い誤差を達成した。
合成データ生成手法の中では、最大スパニングツリー(MST)アルゴリズムが、個別属性分布、属性ペア分布、属性間相関の保存において最も優れていた。
提供者は、既知のクエリに対してはトップダウンアルゴリズムを、未知のクエリに対してはMSTアルゴリズムによる合成データを使うことを推奨する。
สถิติ
トップダウンアルゲリズムは、既知のクエリに対して合成データ生成手法よりも20倍以上低い誤差を達成した。
合成データ生成手法の中では、MSTアルゴリズムが個別属性分布、属性ペア分布、属性間相関の保存において最も優れていた。