Core Concepts
PPIscreenML은 AlphaFold2 모델을 활용하여 단백질 쌍의 상호작용 여부를 정확하게 구분할 수 있는 기계 학습 분류기이다.
Abstract
이 연구에서는 PPIscreenML이라는 기계 학습 분류기를 개발하였다. PPIscreenML은 AlphaFold2 모델을 활용하여 단백질 쌍이 실제로 상호작용하는지 여부를 구분할 수 있다.
연구팀은 먼저 1,481개의 실험적으로 검증된 단백질 복합체와 이를 바탕으로 생성한 1,481개의 유사한 비상호작용 복합체로 구성된 데이터셋을 구축하였다. 이 데이터셋을 활용하여 PPIscreenML 모델을 학습시켰다.
PPIscreenML은 AlphaFold2 모델의 신뢰도 지표, 구조적 특성, Rosetta 에너지 함수 등 57개의 특징을 입력으로 사용한다. 다양한 기계 학습 모델을 평가한 결과, XGBoost 모델이 가장 우수한 성능을 보였다. 이 모델의 성능을 향상시키기 위해 특징 선택 기법을 적용하여 7개의 핵심 특징을 선별하였다.
PPIscreenML은 기존의 방법들인 iPTM, pDockQ보다 우수한 성능을 보였다. 특히 종양 괴사 인자 수퍼패밀리(TNFSF) 내 리간드-수용체 쌍의 선택성을 정확하게 예측할 수 있었다. 이는 PPIscreenML이 단백질 상호작용 스크리닝에 효과적으로 활용될 수 있음을 보여준다.
Stats
AlphaFold2 모델의 평균 interfacial PAE 값 상위 25%의 평균값
인터페이스의 전하 아미노산 수
인터페이스 잔기의 평균 Lennard-Jones 인력 점수
인터페이스 잔기의 평균 Lennard-Jones 반발 점수
인터페이스 잔기의 평균 용매화 점수
인터페이스 잔기의 평균 전기적 점수
인터페이스 잔기 중 베타시트 구조 비율
Quotes
"PPIscreenML은 iPTM, pDockQ보다 우수한 성능을 보였다."
"PPIscreenML은 종양 괴사 인자 수퍼패밀리(TNFSF) 내 리간드-수용체 쌍의 선택성을 정확하게 예측할 수 있었다."