本研究提出了兩種利用語言模型進行自動數據提取的方法。
方法一利用BERT和ELMo等小型雙向語言模型,結合閉文檔問答(CDQA)和命名實體識別(NER)技術,從科學文獻中提取相關信息。
方法二則利用GPT-3.5等大型語言模型,通過精心設計的提示和驗證技術,直接從文獻中提取化學實體信息,如溶劑和鈣鈦礦。
提取的數據被用於訓練一個深度學習分類模型,以預測溶劑的內分泌干擾潛力。為了量化預測的不確定性,本研究採用了香農熵作為度量指標。
結果顯示,約40%的常用溶劑(如DMF和甲苯)被識別為潛在的內分泌干擾物質。同時,該方法還可以識別出一些使用頻率較高但不確定性較大的溶劑,需要進一步研究。
總的來說,本研究提供了一個利用語言模型和不確定性量化的框架,可以從科學文獻中有效提取和分析化學信息,為鈣鈦礦合成的安全性和可持續性提供指導。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Arpan Mukher... às arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.20512.pdfPerguntas Mais Profundas