核心概念
FastDoc 是一種新穎且計算效率高的持續預訓練技術,它利用文件級別的元數據和特定領域的分類法作為監督信號,在特定領域的語料庫上持續預訓練 Transformer 編碼器,並顯著減少預訓練所需的計算量,同時在各種下游任務中保持或提高效能。
摘要
書目資訊
Nandy, A., Kapadnis, M. N., Patnaik, S., Butala, Y. P., Goyal, P., & Ganguly, N. (2024). FastDoc: Domain-Specific Fast Continual Pre-training Technique using Document-Level Metadata and Taxonomy. arXiv preprint arXiv:2306.06190v3.
研究目標
本研究旨在開發一種計算效率高的特定領域持續預訓練技術,以解決現有基於 MLM 的方法計算量大的問題,並利用文件級別的元數據和分類法來增強特定領域的語言模型。
方法
- **FastDoc 架構:**採用層次化架構,使用預先訓練的句子轉換器(sBERT/sRoBERTa)初始化較低級別的編碼器,並凍結其權重。較高級別的編碼器使用預先訓練的 BERT/RoBERTa 編碼器初始化,並使用句子嵌入作為輸入。
- **文件級別監督:**利用文件元數據和特定領域分類法作為監督信號,透過三重網絡進行文件相似性學習,並透過監督式層次分類任務預測與特定領域分類法相對應的層次類別。
- **持續預訓練:**在特定領域語料庫上持續預訓練較高級別的編碼器,並在下游任務中僅對其進行微調。
主要發現
- 與 MLM 和/或 NSP 相比,FastDoc 在客戶支援、科學和法律領域分別減少了約 1,000 倍、4,500 倍和 500 倍的預訓練計算量。
- FastDoc 在客戶支援、科學和法律領域的字元級別 F1 分數和其他自動化指標方面,其效能與其他幾種具有競爭力的基於 Transformer 的基準模型相當或更佳。
- 與基準模型不同,FastDoc 在開放領域的效能下降可忽略不計,這表明其具有更好的抗災難性遺忘能力。
意義
FastDoc 提供了一種計算效率高且有效的特定領域持續預訓練方法,可以顯著減少預訓練時間和資源需求,同時保持或提高下游任務的效能。
局限性和未來研究
- 未來的工作可以探索將 FastDoc 應用於更多領域和下游任務。
- 研究在沒有既定文件元數據和分類法的領域中應用 FastDoc 的方法將是有價值的。
統計資料
與 MLM 和/或 NSP 相比,FastDoc 在客戶支援、科學和法律領域分別減少了約 1,000 倍、4,500 倍和 500 倍的預訓練計算量。
FastDoc(Cus.)RoBERT a 在 TechQA 資料集上的 F1 分數和 HA_F1@1 分數比最佳基準模型 Longformer 高約 6%。
FastDoc(Sci.)BERT 在 6 個資料集中有 4 個的效能優於 SciBERT,並且在關係分類任務中表現最佳。
FastDoc(Leg.)RoBERT a 在 CUAD 資料集上取得了最佳的 Precision@80% Recall 分數,並且 AUPR 分數排名第二。
與 MLM 相比,FastDoc 在預訓練期間參數的相對變化小約 100 倍。
使用 RoBERTa-LARGE 作為 FastDoc 的骨幹模型可以進一步提高結果。
引述
"The novel use of document-level supervision along with sentence-level embedding input for pre-training reduces pre-training compute by around 1,000, 4,500, and 500 times compared to MLM and/or NSP in Customer Support, Scientific, and Legal Domains, respectively."
"The reduced training time does not lead to a deterioration in performance. In fact we show that FastDoc either outperforms or performs on par with several competitive transformer-based baselines in terms of character-level F1 scores and other automated metrics in the Customer Support, Scientific, and Legal Domains."
"Moreover, reduced training aids in mitigating the risk of catastrophic forgetting. Thus, unlike baselines, FastDoc shows a negligible drop in performance on open domain."