既存の複雑なテーブルの構造とコンテンツを利用することで、対象ドメインの実際のテーブルスタイルに非常によく似たテーブルを効率的に合成することができる。
データ合成は、データプライバシーを保護しつつデータを活用する重要なアプローチである。多数のデータ合成アルゴリズムが提案されているが、それらの長所と短所を包括的に理解することは困難である。本研究では、データ合成アルゴリズムを体系的に評価するための枠組みを提案する。具体的には、既存の評価指標の問題点を指摘し、忠実性、プライバシー、ユーティリティの観点から新しい評価指標を導入する。提案した指標に基づき、8種類の合成アルゴリズムを12のデータセットで評価した結果、興味深い知見が得られた。
大規模言語モデルを用いた数学的推論におけるキーポイント駆動型データ合成の重要性と効果を示す。