핵심 개념
語言模型在有效編碼和解釋潛在於語言中的階層結構方面面臨重大挑戰。本文提出了一種新的方法,將轉換器編碼器型語言模型重新訓練為階層轉換器編碼器(HITs),利用雙曲空間的擴展性質來有效地對相關實體進行聚類和階層組織。
초록
本文提出了一種新的方法,將轉換器編碼器型語言模型重新訓練為階層轉換器編碼器(HITs)。
-
啟發於雙曲幾何在表示階層結構方面的有效性,提出了雙曲聚類和離心損失,用於語言模型的重新訓練。
-
將轉換器編碼器型語言模型的輸出嵌入空間置於一個半徑為√d的Poincaré球中,其曲率值適應於嵌入維度。
-
評估HITs在多跳推理和混合跳預測任務上的性能,結果顯示其顯著優於預訓練語言模型、標準微調模型和之前的雙曲嵌入模型。
-
進一步評估了HITs在不同領域階層之間的遷移學習能力,證明了其在階層導向語義搜索方面的潛力。
-
分析了HITs嵌入的分佈和特性,展示了其有效捕捉階層結構語義的能力。
통계
語言模型通常將輸出嵌入限制在一個d維超立方體內,這限制了其對階層結構的理解。
在WordNet多跳推理任務的隨機負樣本設置中,HITs的F1分數達到0.916,顯著優於預訓練和標準微調模型。
在WordNet混合跳預測任務的隨機負樣本設置中,HITs的F1分數達到0.900,優於預訓練和標準微調模型0.553和0.249。
在從WordNet遷移到Schema.org、FoodOn和DOID的混合跳預測任務中,HITs的F1分數分別為0.480、0.507和0.566,優於預訓練和標準微調模型。
인용구
"語言模型在有效編碼和解釋潛在於語言中的階層結構方面面臨重大挑戰。"
"我們提出了一種新的方法,將轉換器編碼器型語言模型重新訓練為階層轉換器編碼器(HITs),利用雙曲空間的擴展性質來有效地對相關實體進行聚類和階層組織。"