表形式データの属性間の論理的および機能的依存関係を保持することは、合成データの信頼性と有用性を高めるために重要である。しかし、現在利用可能な合成データ生成アルゴリズムはこれらの依存関係を十分に保持できていない。
本論文では、生成型表形式データに対する柔軟かつ堅牢な電子透かし手法を提案する。特に、データ提供者は下流タスクに関する知識を活用して、特徴量空間を(キー、値)列のペアに分割する。各ペアにおいて、キー列の要素を使ってランダムな「緑」区間を生成し、値列の要素がこれらの「緑」区間に入るよう促す。理論的および実証的に、透かし付きデータセット(i)データ品質と下流ユーティリティに対する影響が微小、(ii)効率的に検出可能、(iii)データサイエンスで一般的に観察される複数の攻撃に対して堅牢であることを示す。
TrialSynthは、時系列的な臨床試験データを高精度に生成することができる。特に、ハウケス過程とバリエーショナルオートエンコーダーを組み合わせることで、少量の患者データからも高品質な合成データを生成できる。
既存の公開データセットを検索・変換することで、特定のタスクに合わせた高品質な合成データを自動的に生成する。
提案されたフレームワークは、合成データ生成モデルの能力を評価し、高品質な合成データを生成するモデルを選択することができる。
GPT-3を使用した合成データ生成における異なる人口統計の分析と比較
合成データはクラスタリング手法の評価と改善に重要であり、Clugenアルゴリズムは多次元クラスターをサポートラインで生成するための効果的な手法である。