核心概念
本文提出了一種名為 f-RAG 的新分子生成框架,該框架通過片段檢索增強技術,在利用現有化學知識的同時,探索了未知的化學空間,從而生成具有更高目標屬性的新型分子。
摘要
書目資訊
Lee, S., Kreis, K., Veccham, S. P., Liu, M., Reidenbach, D., Paliwal, S., Vahdat, A., & Nie, W. (2024). Molecule Generation with Fragment Retrieval Augmentation. Advances in Neural Information Processing Systems, 38. arXiv:2411.12078v1 [cs.LG]
研究目標
本研究旨在開發一種新的分子生成框架,該框架可以利用現有的化學知識,同時探索未知的化學空間,以生成具有更高目標屬性的新型分子。
方法
本研究提出了一個名為片段檢索增強生成 (f-RAG) 的框架,該框架利用片段檢索增強技術來增強預先訓練的分子語言模型 SAFE-GPT。f-RAG 使用兩種类型的片段检索:(1) 硬片段检索,用于明确地将现有片段包含在新生成的分子中;(2) 软片段检索,用于通过可训练的片段注入模块隐式地指导新片段的生成。此外,f-RAG 还采用了一种迭代优化过程,通过遗传片段修饰来动态更新片段词汇表,从而进一步增强探索能力。
主要發現
- f-RAG 在 PMO 基准测试的 23 项任务中,在优化性能方面优于现有方法,并在 12 项任务中取得了最高的 AUC top-10 值。
- f-RAG 在生成分子的多样性、新颖性和可合成性方面表现出色,在 23 项任务中的 12 项中展现出最高的多样性,在 19 项任务中展现出最高的合成性。
- 在优化与目标蛋白结合亲和度的同时,f-RAG 在生成具有高药物相似性、可合成性和新颖性的候选药物方面优于现有方法。
主要結論
f-RAG 是一种有效的分子生成框架,它通过片段检索增强技术,在利用现有化學知識的同時,探索了未知的化學空間,从而生成了具有更高目标属性、多样性、新颖性和可合成性的新型分子。
意义
本研究提出了一种新的分子生成方法,该方法有效地平衡了对现有化学知识的利用和对未知化学空间的探索,为药物发现领域提供了有价值的工具。
局限性和未来研究方向
未来的研究可以探索将 f-RAG 与其他分子生成技术相结合,例如强化学习和生成对抗网络,以进一步提高生成分子的质量和效率。
統計資料
f-RAG 在 PMO 基准测试的 23 项任务中取得了最高的 AUC top-10 值总和。
f-RAG 在 23 项任务中的 12 项中展现出最高的多样性。
f-RAG 在 23 项任务中的 19 项中展现出最高的合成性。
引述
"Fragment-based drug discovery (FBDD) has been considered as an effective approach to explore the chemical space and has resulted in many successful marketed drugs."
"However, many fragment-based molecule generation methods show limited exploration beyond the existing fragments in the database as they only reassemble or slightly modify the given ones."
"To this end, we propose a fragment-based molecule generation framework leveraging retrieval-augmented generation (RAG) [26], namely Fragment Retrieval-Augmented Generation (f-RAG)."