核心概念
該回顧探討了生成式人工智慧 (AI) 模型在創建合成醫療數據方面的應用,特別關注醫療文本、時間序列和縱向數據,強調了這些模型在解決隱私問題、數據稀缺和類別不平衡方面的潛力,同時也指出了評估指標和方法學上的挑戰。
書目信息
Loni, M., Poursalim, F., Asadi, M., & Gharehbaghi, A. (2024). A Review on Generative AI Models for Synthetic Medical Text, Time Series, and Longitudinal Data. npj Digital Medicine, Under Review. arXiv:2411.12274v1 [cs.LG].
研究目標
本回顧旨在探討生成式 AI 模型在創建合成醫療記錄 (SHR) 方面的現狀技術、方法學局限性、性能指標、常用數據集以及主要研究差距,重點關注醫療文本、時間序列和縱向數據。
方法
本回顧遵循 PRISMA-ScR 指南,系統地搜索了 PubMed、Web of Science 和 Scopus 等數據庫,以識別相關出版物。納入標準包括 2018 年至 2023 年期間發表的出版物、全文可用性以及探討用於生成電子健康記錄 (EHR) 的機器學習主題。
主要發現
生成模型的現狀技術:
醫療時間序列: 生成對抗網路 (GAN) 是最常用的方法,但存在模式崩潰和需要大量數據等問題。擴散模型顯示出希望,但計算成本高。
縱向數據: GAN 和概率模型(例如貝葉斯網路)被廣泛使用,但維持數據效用和隱私是一個挑戰。
醫療文本: 基於 GPT 的模型顯示出希望,但需要大量的計算資源。
性能指標: 評估 SHR 質量的常用指標包括保真度(例如,最大平均差異、Wasserstein 距離)、重新識別風險(例如,成員推理攻擊)和效用(例如,敏感性、特異性)。
常用數據集: 常用的 SHR 生成數據集包括 MIMIC-III、eICU 和 PhysioNet。
主要研究差距:
缺乏標準化的評估指標。
需要解決 GAN 的局限性,例如模式崩潰。
需要開發更有效的縱向數據生成方法。
需要解決隱私洩露的風險。
結論
生成式 AI 模型在創建 SHR 方面具有巨大潛力,可以解決隱私問題、數據稀缺和類別不平衡問題。然而,需要進一步的研究來解決方法學局限性、開發標準化的評估指標並減輕隱私洩露的風險。
意義
這篇回顧提供了對用於生成 SHR 的生成式 AI 模型的全面概述,確定了該領域的現狀技術、局限性和未來方向。這些見解對於研究人員和實踐者來說非常寶貴,他們正在尋求利用合成數據的力量來進行醫療保健研究和創新。
局限性和未來研究
本回顧僅限於英文出版物,可能無法完全反映所有相關研究。此外,由於該領域的快速發展,本回顧中可能沒有包含最新的進展。未來的研究應側重於解決已確定的局限性和探索新的生成模型和評估指標。
統計資料
總共分析了 52 篇出版物。
42% 的審查論文側重於生成合成醫療時間序列數據。
生成對抗網路 (GAN) 是用於生成合成醫療時間序列數據的最常用方法。
大型語言模型 (LLM) 在生成合成醫療文本數據方面顯示出希望。