核心概念
확산 단백질 언어 모델(DPLM)은 강력한 생성 및 예측 능력을 보여주는 다재다능한 단백질 언어 모델이다.
摘要
이 논문은 확산 단백질 언어 모델(DPLM)을 소개한다. DPLM은 진화 규모의 단백질 서열 데이터에서 자기 지도 학습된 확산 생성 모델로, 단백질 서열 생성과 예측 작업에 모두 뛰어난 성능을 보인다.
-
모델링 및 사전 학습:
- 이산 확산 프레임워크를 사용하여 단백질 서열 데이터를 효과적으로 모델링
- 진화 규모의 단백질 서열 데이터로 사전 학습하여 강력한 생성 및 예측 능력 확보
-
무조건부 생성:
- 구조적으로 타당하고 다양한 새로운 단백질 서열을 생성할 수 있음
- 길이와 모델 규모에 따른 생성 성능 비교
-
단백질 표현 학습:
- 다양한 단백질 예측 작업에서 기존 모델들을 능가하는 성능 달성
- 생성 학습을 통해 단백질에 대한 깊은 이해를 습득
-
조건부 생성:
- 부분 서열 조건화를 통한 기능 모티프 스캐폴딩
- 구조 정보 조건화를 통한 역접힘 문제 해결
- 이산 분류기 유도를 통한 원하는 특성의 단백질 생성
전반적으로 DPLM은 단백질 생성과 이해 모두에서 뛰어난 성능을 보이는 다재다능한 생물학적 기반 모델로 평가된다.
统计
단백질 서열 길이가 길수록 DPLM의 접힘 가능성(pLDDT) 점수가 높아진다.
DPLM으로 생성된 단백질 서열은 기존 PDB 구조와 낮은 구조 유사도(pdb-TM)를 보이며, 생성된 서열 간 구조 다양성(inner-TM)도 높다.
DPLM은 마스크 언어 모델(Masked-LM)과 자기회귀 언어 모델(AR-LM)보다 단백질 접힘 가능성(pLDDT) 점수가 높다.
DPLM의 2단계 사전 학습 전략(마스크 언어 모델 + 확산 모델)이 단백질 생성 성능 향상에 도움이 된다.
引用
"What I cannot create, I do not understand."