核心概念
MOLBIND는 언어, 분자 그래프, 분자 구조, 단백질 포켓 등 다양한 모달리티를 통합적으로 정렬하여 효과적인 다중 모달 표현을 학습한다.
摘要
MOLBIND는 다중 모달 사전 학습 프레임워크로, 언어, 분자 그래프, 분자 구조, 단백질 포켓 등 다양한 생물학 관련 모달리티를 통합적으로 정렬하여 효과적인 다중 모달 표현을 학습한다.
기존 접근법은 두 개의 모달리티만을 다루었지만, MOLBIND는 다양한 모달리티 쌍을 활용하여 단일 정렬 표현 공간을 학습한다. 이를 위해 MOLBIND-M4라는 고품질 다중 모달 데이터셋을 구축하였다.
MOLBIND는 제로샷 크로스 모달 검색, 제로샷 분자 분류 등의 다운스트림 태스크에서 우수한 성능을 보였다. 이는 MOLBIND가 다양한 모달리티 간 의미 정렬을 효과적으로 학습했음을 보여준다.
統計資料
분자-언어 쌍의 경우 "PubChem에서 제공하는 다양한 분자 설명 중 32,000개의 쌍을 활용하였다."
분자 구조-언어 쌍의 경우 "Molecule3D와 GEOM 데이터셋에서 총 157,000개의 쌍을 구축하였다."
분자 구조-단백질 포켓 쌍의 경우 "PDBBind와 CrossDocked 데이터셋에서 72,355개의 쌍을 활용하였다."
분자 그래프-분자 구조 쌍의 경우 "언어-구조 쌍에서 분자 구조를 그래프로 변환하여 158,237개의 쌍을 구축하였다."
引述
"MOLBIND는 다양한 모달리티 쌍을 활용하여 단일 정렬 표현 공간을 학습한다."
"MOLBIND는 제로샷 크로스 모달 검색, 제로샷 분자 분류 등의 다운스트림 태스크에서 우수한 성능을 보였다."