Concepts de base
本文提出了DeepProtein,这是一个专门针对蛋白质相关任务的综合性和用户友好型深度学习库。DeepProtein集成了多种最先进的神经网络架构,包括卷积神经网络(CNN)、循环神经网络(RNN)、变换器、图神经网络(GNN)和图变换器(GT)。它提供了用户友好的接口,方便领域研究人员将深度学习技术应用于蛋白质数据。此外,我们还编制了一个基准,评估这些神经架构在各种蛋白质任务上的性能,包括蛋白质功能预测、蛋白质定位预测和蛋白质-蛋白质相互作用预测,展示了其出色的性能和可扩展性。
Résumé
本文提出了DeepProtein,这是一个专门针对蛋白质相关任务的综合性和用户友好型深度学习库。
DeepProtein集成了多种最先进的神经网络架构,包括:
- 序列学习方法:卷积神经网络(CNN)、循环神经网络(RNN)和变换器。
- 结构学习方法:图神经网络(GNN)和图变换器(GT)。
这些模型被应用于以下7个重要的蛋白质学习任务:
- 蛋白质功能预测
- 蛋白质定位预测
- 蛋白质-蛋白质相互作用预测
- 抗原表位预测
- 抗体抗原结合位点预测
- CRISPR修复结果预测
- 抗体可开发性预测
实验结果表明,DeepProtein在这些任务上表现出优异的性能和可扩展性。此外,该库提供了详细的文档和教程,以促进用户参与和可重复的研究。
Stats
蛋白质荧光数据集包含54,025个蛋白质序列,标签为荧光强度的对数值。
蛋白质稳定性数据集包含68,934个蛋白质序列,标签为稳定性值。
β-内酰胺酶数据集包含5,198个蛋白质序列,标签为适应度得分。
蛋白质可溶性数据集包含71,419个蛋白质序列,标签为二进制可溶性。
亚细胞定位数据集包含13,961个样本,标签为10类亚细胞位置。
二进制亚细胞定位数据集包含8,634个样本,标签为二进制膜结合或可溶性。
蛋白质-蛋白质相互作用亲和力数据集包含2,682个蛋白质对,标签为实值亲和力。
酵母蛋白质-蛋白质相互作用数据集包含2,172个蛋白质对,标签为二进制相互作用。
人类蛋白质-蛋白质相互作用数据集包含7,348个蛋白质对,标签为二进制相互作用。