핵심 개념
LLM과 기하학적 딥 모델을 사용하여 단백질의 다양한 표현을 정렬하는 방법을 분석하고, 정렬 성능을 향상시키기 위한 다양한 전략을 제시합니다.
초록
LLM과 기하학적 딥 모델을 이용한 단백질 표현의 정렬 환경 탐색
본 연구는 단백질 분석을 위한 다중 모달 대규모 언어 모델(MLLM) 개발에 필수적인 LLM(대규모 언어 모델)과 GDM(기하학적 딥 모델) 간의 정렬 과제를 다룹니다. 특히, 다양한 요인이 LLM과 GDM 표현 간의 정렬 품질에 미치는 영향을 조사하고 정렬 성능을 향상시키는 전략을 제시하는 것을 목표로 합니다.
연구진은 단백질 도메인에 특화된 4개의 최첨단 GDM(GearNet, GVP, ScanNet, GAT)과 3개의 사전 훈련된 LLM(Gemma2-2B, LLaMa3.1-8B, LLaMa3.1-70B)을 비교하는 광범위한 실험을 수행했습니다. 각 단백질 샘플에는 FASTA 파일의 텍스트 기반 설명과 PDB 파일의 3D 구조 그래프 형식의 두 가지 형태가 존재합니다.
데이터 전처리
텍스트 형태의 경우, LLM이 이해할 수 있도록 FASTA 파일을 단백질 ID, 체인, 분자명, 유기체, 아미노산 서열 길이 등 필수 정보를 담은 상세한 텍스트 설명으로 변환했습니다. 구조 그래프의 경우, GearNet과 ScanNet은 PDB 파일을 직접 사용했으며, GAT 모델의 경우 PDB 파일에서 노드 특징과 그래프 구조를 직접 추출했습니다. GVP 모델의 경우, 단백질 PDB 데이터를 'ID', 'seq'(아미노산 서열), 'coords'(각 잔기의 3D 좌표)를 포함하는 JSON 형식으로 변환했습니다.
잠재 표현 추출
LLM의 경우, 모델별 토크나이저를 사용하여 텍스트 설명을 토큰화하고 모델을 통과시켜 마지막 레이어에서 숨겨진 상태를 추출했습니다. GDM의 경우, 각 모델의 특성에 따라 GearNet은 모든 숨겨진 레이어의 특징을 연결하여 최종 단백질 표현을 얻었으며, GVP는 노드 차원에서 평균 풀링을 적용하여 고정 크기 표현을 얻었습니다. ScanNet은 아미노산 수준에서 잠재 특징 벡터를 추출한 후 평균 풀링을 사용하여 축소했으며, GAT는 각 노드에 대해 연결된 출력을 계산한 후 평균 풀링을 적용했습니다.
표현 정렬
모델에서 단백질 표현을 추출한 후, 각 모델에 대한 투영 헤드를 훈련하여 LLM 임베딩 차원으로 매핑했습니다. 목표는 동일한 단백질 ID에서 비롯된 투영된 그래프 표현과 텍스트 표현 간의 코사인 유사도를 최대화하는 동시에 다른 단백질 ID에서 비롯된 쌍의 경우 유사도를 최소화하는 것입니다. 훈련 중에는 positive pair의 유사성을 높이고 negative pair의 유사성을 낮추기 위해 InfoNCE 손실 함수의 수정된 버전을 사용했습니다.