核心概念
整合蛋白質序列和結構信息的微環境標記模型,能更準確地預測蛋白質轉譯後修飾的類型。
摘要
論文資訊
標題:MeToken:利用統一的微環境標記提升蛋白質轉譯後修飾預測的效能
作者:Cheng Tan, Zhenxiao Cao, Zhangyang Gao 等
期刊/會議:審核中
研究目標
本研究旨在開發一種更精確的蛋白質轉譯後修飾(PTM)預測方法,以解決現有方法忽略蛋白質結構信息以及PTM類型長尾分佈的問題。
方法
- 研究人員構建了一個大規模的蛋白質序列-結構 PTM 數據集,包含超過 120 萬個標記位點和 18 萬種蛋白質。
- 提出了一種名為 MeToken 的新型深度學習模型,該模型利用微環境標記來整合蛋白質序列和結構信息。
- 採用統一子碼本策略來解決 PTM 類型的長尾分佈問題,確保所有 PTM 類型都能得到充分的表示。
- 使用溫度調節向量量化(TS-VQ)來優化模型的訓練過程。
主要發現
- MeToken 在大規模數據集、PTMint 和 qPTM 數據集上均顯著優於現有的 PTM 預測方法。
- MeToken 能夠有效地捕捉蛋白質微環境中的複雜模式,並準確預測 PTM 類型。
- 可視化分析表明,MeToken 學到的碼嵌入與已知的生物學知識一致。
主要結論
整合蛋白質序列和結構信息的微環境標記模型,能更準確地預測蛋白質轉譯後修飾的類型。
意義
本研究提供了一種強大的 PTM 預測工具,有助於深入了解蛋白質功能和疾病機制。
局限性和未來研究方向
- 數據集主要依賴 AlphaFold 預測的蛋白質結構,可能存在偏差。
- 模型未考慮蛋白質與其他分子(如酶、配體或相互作用蛋白)之間的相互作用。
未來研究方向包括:構建更精確的蛋白質結構數據集,以及將蛋白質相互作用納入模型中。
統計資料
MeToken 在大規模數據集上 F1-score 比 ESM-2 提高了 6.46%。
MeToken 在 PTMint 數據集上 F1-score 比最佳基準模型提高了 5.61%。
MeToken 在 qPTM 數據集上 F1-score 比最佳基準模型提高了 16.75%。