本文提出了一種基於大型語言模型 (LLM) 的新型表格數據生成方法 Pred-LLM,通過改進微調、採樣和標籤查詢階段,能更準確地捕捉特徵與目標變數之間的關聯性,生成更逼真的合成數據,進而提升下游預測任務的效能。
TabDiff 是一種新的多模態擴散模型,通過學習特徵層級的噪聲調度和引入隨機採樣器,有效地解決了表格數據生成中數據異質性和複雜關聯性的挑戰,並在數據保真度和下游任務性能方面均優於現有方法。
HS3F 是一種用於生成表格數據的新方法,它通過按順序生成特徵並利用先前生成特徵的信息來解決 Forest Flow 的局限性,從而提高了生成數據的質量、速度和對 ODE 初始條件變化的穩健性。
TabDDPM 是一種用於表格數據生成的擴散模型,在多個基準測試中優於現有的 GAN 和 VAE 方法,同時在隱私保護方面也優於簡單插值方法 SMOTE。
本文提出了一種新的無損二進制轉換方法,將任何表格數據轉換為固定大小的二進制表示,並設計了一個專門用於二進制數據的生成模型Binary Diffusion。該方法消除了對複雜預處理和大型預訓練模型的需求。