核心概念
本文介紹了一種名為 UstcUnfold 的創新人工智慧模型,可以直接從粉末 X 射線繞射 (PXRD) 數據中準確地確定有機和無機-有機雜化晶體固體的結構,並展示了其在解決傳統結構解析方法中難題方面的潛力。
摘要
研究論文摘要
書目資訊
Wu, D., Wang, P., Zhou, S., Zhang, B., Yu, L., Chen, X., Wang, X., Zhou, Z., Wang, Y., Wang, S., & Du, J. (2024). A Powder Diffraction-AI Solution for Crystalline Structure. Science, 385(6679), 529-534.
研究目標
本研究旨在開發一種基於人工智慧的模型,可以直接從粉末 X 射線繞射 (PXRD) 數據中準確預測晶體結構,以解決傳統結構解析方法的局限性。
方法
研究人員開發了一個名為 UstcUnfold 的深度學習模型,該模型結合了 PXRD-結構模板庫、晶體幾何和化學約束。UstcUnfold 包含三個主要模組:PXRD 嵌入模組、結構初始化模組和結構優化模組。研究人員利用來自劍橋晶體數據中心 (CCDC) 的超過 110 萬個理論結構-PXRD 對來訓練和驗證 UstcUnfold。
主要發現
UstcUnfold 在預測所有可能空間群的晶體結構方面表現出優異的準確性。在使用理論 PXRD 數據進行評估時,該模型對晶胞參數的預測平均絕對百分比誤差 (MAPE) 低於 0.05,對 225 個空間群的分類準確度超過 90%,對原子坐標的平均絕對誤差 (MAE) 約為 0.7。此外,UstcUnfold 還能準確預測鍵長、鍵角、二面角和非鍵原子距離。
主要結論
UstcUnfold 為從 PXRD 數據中確定晶體結構提供了一種快速、準確的解決方案,特別適用於難以獲得單晶的天然有機產物和生物分子。該模型有望徹底改變將低維光譜數據庫與高維結構信息聯繫起來的研究範式,並促進從晶體結構到分子構型乃至不同物質狀態(固態、液態和氣態)電子結構的研究。
研究意義
這項研究為晶體學研究提供了一種強大的新工具,可以加速新材料的發現和表徵。通過利用人工智慧的力量,UstcUnfold 克服了傳統結構解析方法的局限性,為更廣泛的科學學科開闢了新的可能性。
局限性和未來研究方向
儘管 UstcUnfold 表現出色,但仍有改進的空間。未來的研究可以集中於提高模型對實驗 PXRD 數據中噪聲和峰缺失的魯棒性,以及擴展模型以預測更複雜的晶體結構,例如蛋白質和巨分子。
統計資料
UstcUnfold 在預測六個晶胞參數(a、b、c、α、β 和 γ)時,MAPE 值始終低於 0.05。
在所有樣本中,最大 MAPE 值限制為 0.057,確保晶胞參數的相對誤差不超過 5.7%。
UstcUnfold 對所有 225 個空間群的預測準確率超過 90%,對其中約 68.4% 的空間群(154 個)的預測準確率超過 95%。
這 154 個空間群在 CCDC 數據庫的 1,149,525 個條目中總共包含 1,146,660 個結構,這意味著 99.7% 的數據集的分類準確率為 95%。
對於少於 600 個原子的 486 個樣本,原子坐標的平均預測誤差為:有機化合物為 0.705,配位化合物為 0.711。
在評估的所有 13 個指標中,UstcUnfold 的 MAPE 值均低於 0.1,證明其在預測關鍵鍵和幾何參數方面具有極高的準確性。
優化的 UstcUnfold 在最小 2θ 為 60° 時,其結構誤差(以 MAPE 衡量)保持在 0.1 以下,這對應於大多數晶體固體可實現的標準數據分辨率。
在預測晶胞參數時,平均絕對誤差 (MAE) 約為 0.115。
引述
"Here we present UstcUnfold, a leapfrog model capable of accurately determining the structures of both organic and inorganic-organic hybrid crystalline solids through direct analysis of powder X-ray diffraction (PXRD) data."
"The most significant feature of this model is its notable compatibility with routine PXRD patterns commonly produced by standard instruments, allowing for rapid data collection and normal resolution levels."
"Therefore, our work not only establishes a rapid and precise AI-driven solution for determining the crystal structures of organic and coordination compounds from widely utilized powder diffraction data—an endeavor of significant importance for natural organic products and biological molecules with coordinating building units—but also has the potential to transform the paradigm that links low-dimensional spectral databases to high-dimensional structural information."