核心概念
HoneyBee 框架透過整合多種醫學數據類型並利用基礎模型生成嵌入向量,解決了腫瘤學研究中缺乏大型、高品質、機器學習可用數據集的問題。
摘要
HoneyBee 框架概述
本研究論文介紹了 HoneyBee,這是一個模組化且可擴展的框架,用於構建機器學習可用的多模態腫瘤學數據集。該框架利用開源基礎模型從原始醫學數據中生成嵌入向量,從而解決了當前腫瘤學研究中缺乏大型、高品質數據集的問題。
HoneyBee 框架的三個主要組成部分:
- 數據獲取與整合: HoneyBee 擴展了 MINDS 框架的數據整合能力,納入了額外的預處理步驟,以確保數據品質和相容性。主要數據模態包括:
- 文本數據: 包括電子病歷 (EHR) 中的結構化和非結構化醫療報告,例如病理報告、放射學報告和臨床記錄。HoneyBee 採用自然語言處理 (NLP) 技術來提取相關特徵並標準化文本數據。
- 影像數據: 包括數位化組織病理學玻片 (WSI) 和放射學掃描,例如電腦斷層掃描 (CT)、磁振造影 (MRI) 和正子斷層掃描 (PET)。HoneyBee 利用先進的電腦視覺模型來處理和分析這些高維度影像數據。
- 分子數據: 提供基因組、轉錄組和蛋白質組層面的癌症潛在生物學機制的見解。HoneyBee 整合了專門的生物資訊學流程,用於預處理和整合這些複雜的分子數據。
- 嵌入生成: HoneyBee 利用基礎模型從原始醫學數據中生成嵌入向量。嵌入生成過程涉及以下關鍵步驟:
- 選擇基礎模型: HoneyBee 框架包含針對不同醫學模態量身定制的基礎模型,例如用於放射學掃描的 REMEDIS 模型、用於 WSI 的 TissueDetector 和 UNI 模型、用於文本數據的 Hugging Face 語言模型以及用於分子數據的 SeNMo 模型。
- 原始醫學數據的預處理: HoneyBee 中的預處理確保原始影像、文本和分子數據與基礎模型的相容性。
- 嵌入的生成: 每個預處理後的數據樣本都通過基礎模型,產生一個固定長度的嵌入向量。HoneyBee 利用 GPU 加速和分佈式計算來有效地為大型數據集生成嵌入。
- 數據存儲和可訪問性: 生成的嵌入和表格數據使用 Hugging Face 數據集庫存儲,該庫提供了用於數據訪問和處理的標準化接口。數據集以結構化格式組織,包含嵌入、元數據和標籤(如果可用)。此外,HoneyBee 數據集可以整合到向量數據庫中,例如 Faiss 和 Annoy,以便在高維嵌入向量上實現快速相似性搜索、最近鄰檢檢索和聚類。
HoneyBee 數據集和用例
為了證明 HoneyBee 框架的實用性,研究人員使用 MINDS 從 TCGA 中提取和處理數據,創建了一個公開的多模態腫瘤學數據集。該數據集包含來自 33 個癌症類型的臨床數據、病理影像、放射學影像和分子數據。研究人員使用預先訓練的模型為每種數據模態生成嵌入,並使用 Hugging Face 數據集庫存儲生成的嵌入和相關元數據。
為了驗證 HoneyBee 框架在生成有意義的多模態數據集方面的有效性,研究人員進行了一系列實驗,評估嵌入的品質和在機器學習任務中的效用。他們使用從 TCGA 數據集中 33 個癌症部位生成的所有臨床文本數據,並使用 GatorTron 和 BERT 模型提取了嵌入。他們訓練了一個隨機森林分類器,使用 HoneyBee Hugging Face 存儲庫中可用的嵌入來對癌症類型進行分類。結果表明,與預先訓練的嵌入相比,經過微調的模型在分類準確性和檢索基準測試中表現出更好的性能,這突出了為每種數據模態選擇合適的基礎模型的重要性。
結論和未來方向
HoneyBee 框架整合了多模態數據,並使用表徵學習技術為腫瘤學研究創建機器學習可用的數據集。用例證明了生成的嵌入在從原始醫學數據中捕獲信息方面的有效性,以及它們在癌症類型分類等任務中的效用。HoneyBee 框架允許整合各種數據模態,並且可以靈活地擴展到其他疾病領域。它為數據整合、預處理、標準化、嵌入生成和存儲提供了一個標準化的流程,促進了數據集的創建,從而加速腫瘤學和其他醫學領域的模型開發。
然而,生成的嵌入的可解釋性和可信度需要進一步研究,以便於在臨床環境中採用。TCGA 數據集可能包含由於患者選擇標準和數據收集過程造成的偏差,這可能會影響模型的泛化能力。HoneyBee 邀請合作者為正在進行的開源工作做出貢獻。
統計資料
TCGA 數據集包含超過 11,000 名原發性癌症患者和 33 種癌症類型的匹配正常樣本的分子特徵。
HoneyBee 數據集佔 MINDS 中所有公開數據的 25.60%。
GatorTron-medium 模型在患者年齡預測等回歸任務中始終表現更好,實現了更低的總體損失。
UNI 模型生成的較小嵌入(每個圖像塊 1024 個)在圖像檢索增強生成等任務中比 REMEDIS 生成的多維嵌入矩陣(圖像塊×7×7×2048)更有效。
臨床文本數據集來自 TCGA,包括 33 個癌症部位的臨床文本數據和項目 ID。
使用 GatorTron(gatortron-medium)和 BERT(bert-base-uncased)模型從臨床文本數據中提取嵌入。
实验使用了 Nvidia RTX 3090 GPU(24GB VRAM)、32GB RAM 和 Ryzen 5950X 16 核 CPU。
採用基於適配器的微調方法對模型進行微調,以展示 HoneyBee 框架的參數高效微調 (PEFT) 能力。
隨機森林分類器使用 100 個估計器進行訓練。
對於預先訓練的模型和微調的模型,我們分別使用不同的隨機種子進行了 10 次運行。
使用 FAISS 進行相似性搜索,並評估具有匹配項目 ID 的患者記錄的檢索情況,以進行檢索基準測試。
引述
"The availability of large-scale public datasets has been a critical factor in advancing machine learning (ML) techniques, particularly in the development of foundation models."
"To address the lack of critical large-scale multimodal medical datasets, we introduce HoneyBee, a modular and scalable framework for building ML-ready multimodal oncology datasets using open-source foundation models."
"The fine-tuned models exhibited improved performance over the pre-trained models, with the GatorTron model demonstrating superior accuracy in both scenarios."