核心概念
本文提出了一種顯著改進先前工作DefSent的方法,通過將定義句子投射到無限詞典詞條的準等向或等向量空間中,可以獲得顯著更好質量的句子嵌入。
摘要
本文提出了一種名為DefSent+的方法,以改善先前工作DefSent的局限性。DefSent試圖通過將定義句子投射到詞典詞條的向量空間來改善語言模型的句子嵌入。但作者發現,由於使用語言模型的詞嵌入來表示詞典詞條存在方法論上的限制,導致了兩個問題:
詞典詞條受限於單詞詞彙,無法充分利用。
語言模型的語義表示是各向異性的,但在DefSent中不允許對詞嵌入進行預處理,因為其權重在訓練期間被凍結並綁定到預測層。
為了解決這些問題,本文提出了一種漸進式獨立訓練(PST)的新方法,可以逐步將各向異性的詞條向量空間轉變為準等向或等向量空間。這樣,定義句子就可以投射到一個質量更好的向量空間中,從而獲得顯著更好的句子嵌入。
實驗結果表明,與DefSent相比,DefSent+在語義相似性任務上有顯著提升。此外,當DefSent+用於進一步訓練數據增強模型時,在不使用手工標注數據集的情況下,也可以實現最先進的性能。DefSent+在特徵遷移能力方面也很有競爭力。
統計資料
詞典資源中共有150,518個詞條,最大長度為138個標記(中位數12個)。
詞典資源中共有331,472個定義句。