本研究は、乳がんの複雑性と多様性に取り組むため、蛋白質配列データと発現レベルを統合する新しいアプローチを提案している。
まず、ProtGPT2 言語モデルを使用して蛋白質配列のエンベディングを生成し、これを蛋白質発現レベルと組み合わせることで、生物学的に意味のある表現を作成した。この統合表現を機械学習手法(アンサンブルK-means、XGBoost)に適用し、患者をバイオロジカルに異なるグループに分類し、生存率やバイオマーカーステータスなどの臨床転帰を正確に予測することに成功した。
特に重要な蛋白質として、KMT2C、GCN1、CLASP2などが同定された。これらの蛋白質は、ホルモン受容体やHER2発現、腫瘍進行、患者転帰に関与していることが示唆された。さらに、蛋白質間相互作用ネットワークと相関分析から、これらの蛋白質が乳がんサブタイプの振る舞いに影響を及ぼす可能性が明らかになった。
この統合アプローチは、複雑な生物学的データを活用し、乳がんの分子特性を深く理解し、個別化治療戦略の向上に貢献することが期待される。
翻譯成其他語言
從原文內容
arxiv.org
深入探究