Khái niệm cốt lõi
본 연구는 효소 기능을 정확하게 이해하기 위해 효소가 촉매하는 반응에 초점을 맞추는 새로운 접근법을 제안합니다. 이를 통해 기존 분류 체계의 한계를 극복하고 효소 기능에 대한 보다 세부적이고 일관된 분류를 제공합니다.
Tóm tắt
본 연구는 효소 기능 이해를 위한 새로운 접근법을 제안합니다. 기존의 효소 분류 체계(EC, GO, KO 등)는 한계가 있어, 효소가 촉매하는 반응에 초점을 맞추는 새로운 방법을 도입했습니다.
- 데이터셋 구축:
- SwissProt와 Rhea 데이터베이스를 활용하여 178,463개의 효소-반응 쌍, 178,327개의 고유 효소, 7,726개의 고유 반응을 포함하는 ReactZyme 데이터셋을 구축했습니다.
- 시간, 효소 유사도, 반응 유사도 기반의 3가지 데이터 분할 방식을 제공합니다.
- 효소-반응 예측 모델링:
- 반응 표현을 위해 SMILES, 그래프, 3D 구조 정보를 활용했습니다.
- 효소 표현을 위해 단백질 언어 모델(ESM, SaProt)과 등가 그래프 신경망(FANN)을 사용했습니다.
- 효소-반응 쌍 관계 학습을 위해 MLP 기반의 인코더-디코더 모델을 사용했습니다.
- 실험 결과:
- 시간 기반 분할에서 UniMol-3D + ESM + GNN 모델이 가장 우수한 성능을 보였습니다.
- 효소 유사도 기반 분할에서 UniMol-3D + ESM 모델이 가장 우수한 성능을 보였습니다.
- 반응 유사도 기반 분할에서는 모든 모델이 낮은 성능을 보였습니다.
본 연구는 효소 기능 이해와 예측을 위한 새로운 접근법을 제시하고, 이를 위한 대규모 데이터셋과 벤치마크를 제공합니다. 이를 통해 효소 기능 연구와 응용 분야에 기여할 것으로 기대됩니다.
Thống kê
효소-반응 쌍 수: 178,463개
고유 효소 수: 178,327개
고유 반응 수: 7,726개