Core Concepts
본 연구는 효소 기능을 정확하게 이해하기 위해 효소가 촉매하는 반응에 초점을 맞추는 새로운 접근법을 제안합니다. 이를 통해 기존 분류 체계의 한계를 극복하고 효소 기능에 대한 보다 세부적이고 일관된 분류를 제공합니다.
Abstract
본 연구는 효소 기능 이해를 위한 새로운 접근법을 제안합니다. 기존의 효소 분류 체계(EC, GO, KO 등)는 한계가 있어, 효소가 촉매하는 반응에 초점을 맞추는 새로운 방법을 도입했습니다.
- 데이터셋 구축:
- SwissProt와 Rhea 데이터베이스를 활용하여 178,463개의 효소-반응 쌍, 178,327개의 고유 효소, 7,726개의 고유 반응을 포함하는 ReactZyme 데이터셋을 구축했습니다.
- 시간, 효소 유사도, 반응 유사도 기반의 3가지 데이터 분할 방식을 제공합니다.
- 효소-반응 예측 모델링:
- 반응 표현을 위해 SMILES, 그래프, 3D 구조 정보를 활용했습니다.
- 효소 표현을 위해 단백질 언어 모델(ESM, SaProt)과 등가 그래프 신경망(FANN)을 사용했습니다.
- 효소-반응 쌍 관계 학습을 위해 MLP 기반의 인코더-디코더 모델을 사용했습니다.
- 실험 결과:
- 시간 기반 분할에서 UniMol-3D + ESM + GNN 모델이 가장 우수한 성능을 보였습니다.
- 효소 유사도 기반 분할에서 UniMol-3D + ESM 모델이 가장 우수한 성능을 보였습니다.
- 반응 유사도 기반 분할에서는 모든 모델이 낮은 성능을 보였습니다.
본 연구는 효소 기능 이해와 예측을 위한 새로운 접근법을 제시하고, 이를 위한 대규모 데이터셋과 벤치마크를 제공합니다. 이를 통해 효소 기능 연구와 응용 분야에 기여할 것으로 기대됩니다.
Stats
효소-반응 쌍 수: 178,463개
고유 효소 수: 178,327개
고유 반응 수: 7,726개