核心概念
本研究提出了一種利用語言模型進行自動數據提取和基於不確定性的分類模型,以評估鈣鈦礦合成中使用的溶劑的內分泌干擾潛力。
摘要
本研究提出了兩種利用語言模型進行自動數據提取的方法。
方法一利用BERT和ELMo等小型雙向語言模型,結合閉文檔問答(CDQA)和命名實體識別(NER)技術,從科學文獻中提取相關信息。
方法二則利用GPT-3.5等大型語言模型,通過精心設計的提示和驗證技術,直接從文獻中提取化學實體信息,如溶劑和鈣鈦礦。
提取的數據被用於訓練一個深度學習分類模型,以預測溶劑的內分泌干擾潛力。為了量化預測的不確定性,本研究採用了香農熵作為度量指標。
結果顯示,約40%的常用溶劑(如DMF和甲苯)被識別為潛在的內分泌干擾物質。同時,該方法還可以識別出一些使用頻率較高但不確定性較大的溶劑,需要進一步研究。
總的來說,本研究提供了一個利用語言模型和不確定性量化的框架,可以從科學文獻中有效提取和分析化學信息,為鈣鈦礦合成的安全性和可持續性提供指導。
統計資料
鈣鈦礦合成中使用的常見溶劑包括二甲基甲醯胺(DMF)、二甲基亞砜(DMSO)、甲苯、油酸和異丙醇等。
引述
"本研究提出了一種利用語言模型進行自動數據提取和基於不確定性的分類模型,以評估鈣鈦礦合成中使用的溶劑的內分泌干擾潛力。"
"結果顯示,約40%的常用溶劑(如DMF和甲苯)被識別為潛在的內分泌干擾物質。"