核心概念
2020年国勢調査の「ノイズ付き測定値」は重要であるが、国勢調査製品の設計がより重要である。適切な製品設計により、ノイズの少ない測定値の公開や、公開統計の不確実性の直接推定が可能になる。
摘要
本稿は、2020年国勢調査の「ノイズ付き測定値」ファイル(NMF)の重要性と、国勢調査製品の設計がより重要であることを説明している。
NMFは、国勢調査の機密保護システムの生の出力であり、従来の公開データよりはるかに多くの情報を含んでいる。しかし、NMFは直接公開を目的とした製品ではなく、実験的なものである。
国勢調査製品の設計には、以下の重要な要素がある:
- クエリワークロード - 公開する統計の集合
- クエリ戦略 - 機密保護メカニズムに入力する統計の集合
2020年の再区割りデータのクエリ戦略は、クエリワークロードの10倍以上の統計を含んでいた。これは、非負制約や階層整合性の要件などの設計制約によるものである。
これらの制約を緩和すれば、ノイズの少ない測定値を直接公開し、公開統計の不確実性を示すことができる。再区割りコミュニティのニーズに合わせた最適な製品設計が重要である。
統計資料
再区割りデータの公開統計は約15億の線形独立統計であるが、NMFには約160億の線形独立統計が含まれている。
人口特性データの公開統計は約80億の線形独立統計であるが、NMFには約250兆の線形独立統計が含まれている。
引述
「ノイズ付き測定値は(差分プライバシーによって)将来の攻撃に対して耐性があるため、ノイズ付き測定値への直接アクセスを提供する必要はなく、センサス局の研究データセンターを仲介する必要がない。代替製品として公開することができる。」
William Sexton, 2020年センサス機密保護システムの開発者