المفاهيم الأساسية
機器學習模型可以利用視蛋白基因序列數據準確預測最大吸收波長 (λmax),並揭示基因型-表現型關係,為蛋白質工程和進化生物學研究提供新的途徑。
الملخص
書目資訊
Frazer, S. A., Baghbanzadeh, M., Crandall, K. A., Rahnavard, A., & Oakley, T. H. (2023). Discovering genotype-phenotype relationships with machine learning and the Visual Physiology Opsin Database (VPOD). Molecular Biology and Evolution. https://doi.org/10.1093/molbev/msad182
研究目標
本研究旨在利用新建立的視覺生理學視蛋白資料庫 (VPOD) 和機器學習方法,探索動物視蛋白基因序列與其光譜敏感性(以最大吸收波長 λmax 表示)之間的關係。
方法
研究人員收集了來自 73 篇文獻的 864 個獨特的動物視蛋白基因型和相應的 λmax 表型數據,構建了 VPOD 資料庫。他們使用 deepBreaks 工具,以視蛋白基因序列作為輸入,訓練和評估了多種機器學習模型預測 λmax 的能力。此外,他們還探討了模型預測基因內上位效應和識別關鍵氨基酸位點的能力,並將機器學習方法與系統發育插補法進行了比較。
主要發現
- 機器學習模型可以僅憑基因序列數據準確預測視蛋白的 λmax,特別是在訓練數據充足且多樣化的情況下,最高 R² 值可達 0.968,最低平均絕對誤差 (MAE) 為 6.56 nm。
- 模型能夠預測突變對 λmax 的非加性效應(基因內上位效應),並識別出對改變 λmax 至關重要的氨基酸位點(例如光譜調諧位點)。
- 與系統發育插補法相比,機器學習模型在預測 λmax 方面表現更出色,且計算時間更短。
主要結論
機器學習模型可以作為一種可靠且有效的方法,用於預測未經實驗驗證的視蛋白的 λmax,識別潛在的光譜調諧位點和上位效應,並更廣泛地應用於基因序列與表型之間的關聯分析。
研究意義
本研究建立的 VPOD 資料庫和機器學習方法為深入理解視蛋白的功能進化提供了新的工具,並為其他基因家族的基因型-表現型關係研究提供了參考。
局限性和未來研究方向
- VPOD 資料庫目前主要包含脊椎動物視蛋白數據,需要進一步擴充無脊椎動物視蛋白數據。
- 未來研究可以考慮將氨基酸的物理化學性質、蛋白質結構信息以及環境因素等納入模型,以提高預測精度。
- 開發能夠預測非功能性視蛋白的模型,將有助於更全面地模擬分子進化過程。
الإحصائيات
VPOD_1.0 資料庫包含 864 個獨特的視蛋白基因型和相應的 λmax 表型數據,收集自 73 篇獨立出版物。
其中包含 318 個獨特的野生型視蛋白和 546 個獨特的突變型視蛋白。
數據主要來自脊椎動物視蛋白 (n = 721),僅有 143 個無脊椎動物視蛋白。
最高性能模型的 10 倍交叉驗證 (CV) R² 為 0.968,最低平均絕對誤差 (MAE) 為 6.56 nm。
僅使用野生型數據訓練的模型在預測未見過的野生型數據時,R² 也高達 0.902,MAE 為 10.3 nm。
اقتباسات
"ML models trained on opsin data accurately predict the λmax of opsins from genetic data alone [highest R² = 0.968 with a lowest mean absolute error (MAE) of 6.56 nm], especially when ample and diverse training data are available."
"ML also predicts some known effects of epistatic mutations on λmax."
"Finally, ML models identify several sites that cause shifts in λmax (e.g., ‘spectral tuning sites’) and sites known to be structurally important, even in the absence of mutant data in training."