核心概念
本文提出了一種名為潛在提示轉換器 (LPT) 的新型生成模型,用於分子設計,並通過將其構建為條件生成建模任務,將目標生物特性或所需的化學約束作為條件變量,在單目標、多目標和結構約束優化任務中均展現出有效發現有用分子的能力。
參考信息: Kong, D., Huang, Y., Xie, J. et al. Molecule Design by Latent Prompt Transformer. Advances in Neural Information Processing Systems, 38 (2024).
研究目標: 本文旨在解決分子設計中的挑戰性問題,特別是開發一種能夠有效探索廣闊化學空間並生成具有所需特性的分子的機器學習模型。
方法: 本文提出了一種名為潛在提示轉換器 (LPT) 的新型生成模型,該模型由三個主要組件組成:(1) 具有可學習先驗分佈的潛在向量,通過高斯白噪聲的神經變換建模;(2) 基於因果轉換器的分子生成模型,使用潛在向量作為提示;(3) 屬性預測模型,使用潛在提示預測分子的目標屬性和/或約束值。LPT 可以通過對分子-屬性對的最大似然估計進行學習。在屬性優化過程中,通過後驗採樣從目標屬性和約束中推斷出潛在提示,然後用於指導自回歸分子生成。在對現有分子及其屬性進行初始訓練後,採用在線學習算法逐步將模型分佈轉移到支持所需目標屬性的區域。
主要發現:
LPT 在各種基於分子的優化任務中均取得了最先進的性能,包括單目標設計、多目標設計和生物序列設計。
LPT 不僅可以有效地發現滿足單目標、多目標和結構約束優化任務的有用分子,而且還表現出強大的樣本效率。
對於結合到磷酸甘油酸脫氫酶 (PHGDH) 的 NAD 結合位點的分子條件生成這一新任務,LPT 也表現出色,並通過結構約束優化與人類專家設計的分子進行了比較分析。
主要結論: LPT 為分子設計提供了一個強大的框架,將分子生成和優化統一在一個單一的框架內。通過利用可學習的信息先驗分佈和在線學習算法,LPT 有效地解決了傳統方法的局限性,並在各種分子設計任務中取得了顯著的性能提升。
意義: 這項研究對藥物發現和材料科學具有重大意義,因為它提供了一種系統且有效的方法來設計具有增強性能的新分子。
局限性和未來研究: 雖然 LPT 表現出顯著的潛力,但仍有機會更好地理解 LPT 如何處理多目標優化場景中固有的權衡,特別是在表徵最優解的帕累托前沿性質方面。未來的研究還可以探索替代架構,以擴展 LPT 在科學和工程中基於序列的優化問題之外的適用性。
統計資料
LPT 在 ESR1、ACAA1 和 PHGDH 三個蛋白質靶點的單目標結合親和力最大化任務中,顯著優於其他方法,在 KD 值方面通常取得了顯著的改進。
在多目標優化任務中,LPT 在所有三個蛋白質靶點上實現的 QED 和 SA 分數與 SGDS 相當,同時顯著提高了結合親和力。
在 TF Bind 8 任務中,LPT 的性能優於強競爭對手 GFlowNet-AL,同時保持了相當的多樣性。
對於 GFP 任務,LPT 在保持合理多樣性的同時,也取得了優於其他方法的性能。
在實際分子優化 (PMO) 基準測試中,LPT 的性能優於先前的多種方法,包括 MARS、GFlowNet 和結合貝葉斯優化的 SMILES/SELFIES-VAE。