核心概念
단백질 데이터베이스에서 추출한 텍스트 주석을 활용하여 단백질 서열을 제어할 수 있는 다중 모달리티 단백질 설계 프레임워크를 제안한다.
摘要
이 논문은 단백질 기능 설계를 위한 새로운 주석 기반 접근법을 제안한다. 기존 연구는 주로 구조적 또는 진화적 정보를 활용하여 단백질을 생성했지만, 이는 단백질의 기능과 속성을 간접적으로만 반영할 수 있다. 이 논문에서는 단백질 데이터베이스에서 추출한 텍스트 주석을 활용하여 단백질 서열을 직접적으로 제어할 수 있는 Protein-Annotation Alignment Generation (PAAG) 프레임워크를 제안한다.
PAAG는 다중 수준 정렬 모듈을 통해 단백질 서열과 주석 표현을 정렬하고, 이를 활용하여 특정 도메인을 포함하는 단백질을 생성할 수 있다. 또한 PAAG는 주석의 조합을 활용하여 다양한 기능의 단백질을 생성할 수 있다.
실험 결과, PAAG는 7개의 예측 작업에서 기존 최신 모델을 능가하는 성능을 보였다. 또한 아연 손가락 도메인과 면역글로불린 도메인 생성 작업에서 PAAG는 기존 모델 대비 약 3배 이상 높은 성공률을 달성했다. 이를 통해 PAAG가 텍스트 주석을 활용하여 단백질 기능을 효과적으로 제어할 수 있음을 보여준다.
統計資料
이 모델은 단백질 서열 길이가 200개인 경우, 8개의 C2H2형 아연 손가락 도메인과 1개의 C2H2형 2; 퇴화된 아연 손가락 도메인을 포함하는 단백질을 생성할 수 있다. (e-value: 1.8e-7)
이 모델은 단백질 서열 길이가 200개인 경우, 11개의 C2H2형 아연 손가락 도메인과 1개의 C2H2형 6; 퇴화된 아연 손가락 도메인을 포함하는 단백질을 생성할 수 있다. (e-value: 1.8e-7)
이 모델은 단백질 서열 길이가 117개인 경우, 1개의 Ig형 면역글로불린 도메인을 포함하는 단백질을 생성할 수 있다. (e-value: 1.4e-08)
이 모델은 단백질 서열 길이가 200개인 경우, 3개의 Ig형 V형 면역글로불린 도메인을 포함하는 단백질을 생성할 수 있다. (e-value: 1.6e-08)
引述
"단백질 설계의 핵심 과제는 특정 기능이나 속성을 가진 단백질을 만드는 것이다."
"현재 모델은 구조적 및 진화적 지침을 활용하여 단백질을 생성하지만, 이는 기능과 속성에 대한 간접적인 조건만 제공한다."
"단백질 데이터베이스의 텍스트 주석, 특히 단백질 도메인에 대한 주석은 단백질의 고수준 기능, 속성 및 이들과 목표 아미노산 서열의 상관관계를 직접 설명할 수 있다."