本研究では、表形式データの論理的および機能的依存関係を保持する能力について、7つの代表的な合成データ生成モデルを比較・分析した。
まず、論理的依存関係を定量化するための新しい指標であるQ関数を導入した。次に、FDToolアルゴリズムを使用して機能的依存関係を抽出した。5つの公開データセットを用いて、合成データと元のデータの依存関係を比較した。
結果として、一部のモデル(NextConvGeN、TabDDPM、TabuLa)は論理的依存関係をある程度保持できるが、機能的依存関係を保持することは困難であることが分かった。これは、現在の合成データ生成モデルが属性間の依存関係を十分に考慮していないことを示している。
今後、属性間の依存関係を保持する合成データ生成モデルの開発が必要であり、特に医療分野などでの応用が期待される。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問