핵심 개념
분자 구조 최적화를 위해 점진적 최적화 학습 프레임워크(GOLF)를 제안한다. GOLF는 효율적인 데이터 수집 방식과 외부 최적화기를 활용하여 신경망 모델의 분자 구조 에너지 최소화 성능을 향상시킨다.
초록
본 논문은 분자 구조 최적화 문제를 다룬다. 분자 구조 최적화는 컴퓨터 기반 신약 개발과 신소재 설계에 필수적이다. 기존의 반복적 최적화 방법은 물리 시뮬레이터(oracle)와의 많은 상호작용이 필요해 계산량이 많다. 이를 해결하기 위해 신경망 모델을 활용하는 방법이 제안되었지만, 분포 변화로 인한 오차 문제가 있다.
저자들은 최적화 궤적 데이터를 추가하여 이 문제를 해결하고자 했지만, 이 방법 역시 많은 추가 계산이 필요하다. 이에 저자들은 GOLF 프레임워크를 제안한다. GOLF는 효율적인 데이터 수집 방식과 외부 최적화기를 활용하여 신경망 모델의 분자 구조 에너지 최소화 성능을 향상시킨다.
GOLF의 주요 구성 요소는 다음과 같다:
정확하지만 계산량이 많은 genuine oracle OG
최적화기
계산량이 적은 surrogate oracle OS
GOLF의 학습 과정은 다음과 같다:
OS를 사용하여 최적화 궤적을 생성
궤적에서 NNP의 예측 성능이 낮은 구조를 선별
선별된 구조의 에너지와 힘을 OG로 계산하여 학습 데이터에 추가
추가된 데이터로 NNP 모델 업데이트
실험 결과, GOLF로 학습한 NNP 모델은 기존 방법 대비 50배 적은 추가 데이터로 물리 시뮬레이터 수준의 최적화 성능을 달성했다. 또한 다양한 약물 유사 분자 데이터셋에서 우수한 일반화 성능을 보였다.
통계
단일 DFT 계산에 약 590 CPU-초가 소요된다.
5 x 10^5개의 추가 DFT 계산에는 약 9.36 CPU-년의 계산량이 필요하다.
인용구
"분자 구조 최적화는 컴퓨터 기반 신약 개발과 신소재 설계에 필수적이다."
"기존의 반복적 최적화 방법은 물리 시뮬레이터(oracle)와의 많은 상호작용이 필요해 계산량이 많다."
"신경망 모델을 활용하는 방법이 제안되었지만, 분포 변화로 인한 오차 문제가 있다."