核心概念
MELT 是一種針對材料科學領域設計的新型持續預訓練方法,它透過構建語義圖譜來提取材料知識,並以課程學習的方式將其融入預訓練過程中,從而有效地將預訓練語言模型適應於材料科學領域。
摘要
本研究提出了一種新穎的持續預訓練方法 MELT(材料導向型持續預訓練),專為有效地將預訓練語言模型 (PLM) 適應於材料科學領域而設計。與先前僅關注構建特定領域語料庫的適應策略不同,MELT 在考量到材料科學語料庫與其他領域不同的特性下,同時兼顧了語料庫和訓練策略。為此,我們首先透過構建語義圖譜,從科學語料庫中構建了一個全面的材料知識庫。利用這些提取的知識,我們在適應過程中整合了一個課程學習機制,從熟悉和通用的概念開始,逐步過渡到更專業的術語。我們在多個基準測試中進行了廣泛的實驗,以驗證 MELT 的有效性和通用性。全面的評估結果令人信服地證明了 MELT 的優勢,證明其與現有的持續預訓練方法相比具有更優越的性能。對 MELT 的深入分析還表明,與現有的適應方法相比,MELT 使 PLM 能夠有效地表示材料實體,從而突出了其在廣泛的材料科學領域中的廣泛適用性。
研究方法
材料導向型實體遮罩:
化學實體提取: 利用字典映射和 CRF 標記器從材料科學語料庫中提取材料實體,包括元素和化合物名稱以及材料特性(如密度、熔點和電導率)。
語義圖譜知識擴展: 透過構建語義圖譜來擴展材料知識,將相關術語和缺失的實體與種子實體聯繫起來。利用材料嵌入的組合特性,透過嵌入空間中的向量運算來尋找相關實體和屬性。
基於課程的實體學習:
根據語義圖譜中的節點度來定義材料術語的難度,節點度越高表示該實體越熟悉和明確。
逐步遮罩材料實體,從節點度較高的實體(基本和常見概念)到節點度較低的實體(特定領域和專業概念)。
透過這種課程學習方式,PLM 可以逐步學習材料科學知識,從而提高模型的穩定性和泛化能力。
實驗結果
在 MatSci-NLP 基準測試中,MELT 在所有任務上的表現均優於現有方法,證明了其在多種材料科學任務中的廣泛適用性。
在分類任務(包括 NER、段落分類和槽填充)上的評估結果也顯示,MELT 的表現優於其他基準模型。
遮罩相關性分析表明,MELT 成功提取了特定領域的實體,例如化學式和材料特性。
材料導向型實體遮罩的有效性分析表明,MELT 可以透過從多種材料實體中學習來提高 PLM 的泛化能力。
效率分析表明,與隨機遮罩基準相比,MELT 能夠更有效地將 PLM 適應於材料科學領域。
結論
MELT 是一種有效的持續預訓練方法,它透過構建材料知識庫並以課程學習的方式將其融入預訓練過程中,從而有效地將 PLM 適應於材料科學領域。實驗結果證明了 MELT 在多種材料科學任務中的優越性能和廣泛適用性。
統計資料
在材料科學語料庫中,化學式約佔所有實體的 20%。
MELT 在 SOFC-Filling 任務中,對「支撐材料」類別的表現比隨機遮罩方法高出約 25%。
MELT 在 40,000 步預訓練後,在 SOFC-NER 和 SOFC-Filling 測試集上的表現持續優於基準模型。