本研究介紹了一種基於深度學習的新框架 LA4SR(利用人工智能進行藻類氨基酸序列表徵的語言建模),用於處理微生物基因組數據並提取難以處理的信息。該框架利用預先訓練的語言模型(LMs)和大型語言模型(LLMs),並針對微生物序列分類進行了重新設計。
研究人員使用來自 161 個微藻基因組和從非冗餘 (nr) 蛋白質數據庫中提取的已知污染物序列構建了微生物基因組序列數據集。他們採用了兩種主要的訓練和評估方法:全長蛋白質序列(包含末端信息,TI-inclusive)和打亂起始/终止位點(不含末端信息,TI-free)。他們使用 Hugging Face Transformers 庫和 PyTorch 框架實現並訓練了各種 LM 和 LLM 架構,包括 GPT-2、BLOOM、DistilRoBERTa、ELECTRA、Mamba、Mistral 和 Pythia。
LA4SR 模型在藻類序列分類方面取得了高達 95% 的 F1 分數,並且比 BLASTP 快 16,580 倍,召回率是 BLASTP 的 2.9 倍。它們有效地分類了藻類的“暗蛋白質組”(例如,包含約 65% 總蛋白質的未表徵蛋白質),並在包括新的、完整的 Hi-C/Pacbio 衣藻基因組在內的新數據上得到驗證。較大的(> 1B)LA4SR 模型在僅使用不到 2% 的可用數據進行訓練時就達到了很高的準確度(F1 > 86),快速實現了強大的泛化能力。當訓練數據具有完整或打亂的末端信息時,也能夠實現高準確度,這表明對不完整序列具有強大的泛化能力。
研究人員進行了多方面的模型可解釋性分析,以了解模型的決策過程。他們利用了各種解釋技術,包括 Tuned Lens、Captum、DeepLift 和基於 SHAP 的方法,以確定特定的氨基酸殘基、它們的模式和位置關係如何影響模型決策。他們開發了定制的解釋器程序,例如 HELIX、DeepLift LA4SR 和 Deep Motif Miner Pro (DMMP),以從模型中提取和可視化關鍵的梯度信息。
這項研究表明,下一代語言模型 (LMs) 在生物序列分析中的應用取得了重大進展。LA4SR 框架在準確性、召回率和計算效率方面優於傳統的生物信息學方法,並為理解以前無法表徵的蛋白質序列提供了新的可能性。模型可解釋性分析提供了對模型決策過程的寶貴見解,突出了關鍵的氨基酸模式和結構特徵。
翻譯成其他語言
從原文內容
arxiv.org
深入探究