本研究旨在整合蛋白質序列和表達水平數據,以增強對乳癌亞型的理解並預測臨床結果。
首先,使用ProtGPT2語言模型從蛋白質序列中提取功能和結構特徵,並將其與蛋白質表達水平相結合,形成生物學意義豐富的表示。
接下來,應用機器學習方法如集成K-means聚類和XGBoost分類算法對整合的數據進行分析。這種方法成功地將患者聚類為生物學上不同的組別,並準確預測了生存率和生物標誌物狀態,取得了高性能指標。
特徵重要性分析突出了關鍵蛋白質,如KMT2C、GCN1和CLASP2,它們與激素受體和HER2表達相關,在腫瘤進展和患者預後中發揮作用。此外,蛋白質-蛋白質相互作用網絡和相關性分析揭示了可能影響乳癌亞型行為的蛋白質之間的相互依賴性。
這些發現表明,整合蛋白質序列和表達數據為理解腫瘤生物學提供了寶貴的見解,並有望增強乳癌個性化治療策略。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések