核心概念
本研究では、3D構造に基づくタンパク質の複合体結合親和性予測と単一鎖の機能予測を同時に行うことができる統合的な学習モデルを提案する。
要約
本研究では、タンパク質の3D構造を活用して複合体結合親和性予測と単一鎖の機能予測を同時に行うことができる統合的な学習モデルを提案している。
まず、4つのデータセットから6つの関連するタスクを統合した新しいベンチマーク「Protein-MT」を構築した。このベンチマークには、複合体の結合親和性予測(LBA、PPA)と単一鎖の機能予測(EC、GO-MF、GO-BP、GO-CC)が含まれる。
次に、提案するモデル「HeMeNet」は、異種の関係性を捉えるマルチチャンネルの等変グラフニューラルネットワークと、タスク固有の情報を活用するタスク対応型の出力層から構成される。HeMeNetは、3D構造の複雑な入力に対応し、複数のタスクを同時に学習することができる。
実験の結果、HeMeNetは単一タスク学習と多タスク学習の両方で、ほとんどのタスクにおいて最先端のモデルを上回るパフォーマンスを示した。特に、LBAとPPAタスクでは、多タスク学習によって大幅な性能向上が見られた。また、プロパティ予測タスクでも、適切なタスク対応型の出力層により、単一タスク学習と同等の性能を維持できることが示された。
以上より、本研究は3D構造に基づくタンパク質の多様な機能予測を可能にする統合的な学習モデルを提案し、その有効性を実証したものである。
統計
複合体の結合親和性予測(LBA)タスクでは、平均二乗誤差(RMSE)が1.730、平均絶対誤差(MAE)が1.335を達成した。
複合体の結合親和性予測(PPA)タスクでは、RMSEが1.087、MAEが0.912を達成した。
酵素コミッション番号(EC)予測タスクでは、最大F値が0.810を達成した。
遺伝子オントロジー(GO)の分子機能(MF)、生物学的プロセス(BP)、細胞成分(CC)の各予測タスクでは、最大F値がそれぞれ0.727、0.379、0.436を達成した。