核心概念
SCOP 是一種新穎的蛋白質功能預測方法,它利用蛋白質序列和結構信息,並通過對比學習預訓練模型,在使用較少預訓練數據的情況下,有效提高了蛋白質功能預測的準確性。
本篇研究論文介紹了一種名為 SCOP 的蛋白質功能預測新方法,SCOP 是「序列結構對比感知預訓練」(Sequence-Structure Contrast-Aware Pre-training)的縮寫。
研究背景
蛋白質在各種生理活動中扮演著至關重要的角色,了解蛋白質的功能對於蛋白質交互作用、藥物設計和精準醫療等領域至關重要。現有的蛋白質功能預測方法主要依賴於蛋白質的序列或結構特徵,但存在以下局限性:
蛋白質標籤數據稀缺:通過濕實驗室獲得蛋白質的物理化學性質和生物學功能的數據既耗時又昂貴。
學習蛋白質結構特徵的不足:現有的基於序列的模型沒有考慮蛋白質的結構信息,而大多數基於結構的模型只考慮蛋白質的二維拓撲結構,忽略了三維空間中特定構象的空間特徵。
無法利用蛋白質序列和結構之間的關聯性:現有方法要麼僅從一個角度學習蛋白質表示,要麼僅僅對序列和結構進行孤立的特徵提取,沒有充分利用蛋白質序列和結構之間的關聯性和聯繫。
方法
為了克服上述問題,SCOP 被提出用於蛋白質功能預測。SCOP 的特點包括:
它引入了一個基於蛋白質結構的編碼器,用於整合蛋白質拓撲和空間特徵。
它充分利用與結構配對的蛋白質序列中包含的監督信息,探索這兩種視圖之間的關聯性。
它提出了一個對比感知預訓練框架,可以在沒有標籤信息的情況下學習蛋白質表示。
結果
在四個基準數據集和一個自建數據集上的實驗結果表明,SCOP 在使用較少預訓練數據的情況下,提供了更具體的結果,並且優於現有方法。
統計資料
SCOP 在 EC、GO-BP 和 GO-MF 數據集上的 Fmax 分別比次優結果提高了 1.3%、2.7% 和 2.1%。
SCOP 在所有數據集的 AUPR 指標上均優於其他方法。
儘管 SCOP 的參數量僅為 TransFun (680M) 的 5% 和 LM-GVP (216M) 的 12%,但仍能達到與之相當甚至更好的性能。