이 연구는 단백질 서열 데이터와 발현 수준 데이터를 통합하여 유방암 아형의 분자적 특성을 규명하고 임상 결과를 예측하는 혁신적인 접근법을 제시한다. ProtGPT2라는 단백질 서열 전용 언어 모델을 사용하여 단백질 서열의 기능적, 구조적 특성을 추출하고 이를 단백질 발현 수준과 결합하였다. 이를 통해 보다 포괄적인 생물학적 표현을 만들어 내었다. 이 통합된 데이터를 바탕으로 기계 학습 기법인 앙상블 K-means 클러스터링과 XGBoost 분류 모델을 적용하였다.
그 결과, 환자를 생물학적으로 구분되는 그룹으로 성공적으로 클러스터링할 수 있었고, 생존 상태와 바이오마커 상태 등 임상 결과를 높은 정확도로 예측할 수 있었다. 특히 KMT2C, GCN1, CLASP2 등의 단백질이 호르몬 수용체 및 HER2 발현과 관련되어 종양 진행 및 환자 예후에 중요한 역할을 하는 것으로 나타났다.
단백질-단백질 상호작용 네트워크 및 상관 분석을 통해 유방암 아형 행동에 영향을 미칠 수 있는 단백질들의 상호의존성을 확인하였다. 이러한 결과는 단백질 서열과 발현 데이터를 통합하는 것이 종양 생물학에 대한 귀중한 통찰을 제공하며, 개인 맞춤형 치료 전략 향상에 큰 잠재력이 있음을 시사한다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문