本文提出了一種新的方法,將轉換器編碼器型語言模型重新訓練為階層轉換器編碼器(HITs)。
啟發於雙曲幾何在表示階層結構方面的有效性,提出了雙曲聚類和離心損失,用於語言模型的重新訓練。
將轉換器編碼器型語言模型的輸出嵌入空間置於一個半徑為√d的Poincaré球中,其曲率值適應於嵌入維度。
評估HITs在多跳推理和混合跳預測任務上的性能,結果顯示其顯著優於預訓練語言模型、標準微調模型和之前的雙曲嵌入模型。
進一步評估了HITs在不同領域階層之間的遷移學習能力,證明了其在階層導向語義搜索方面的潛力。
分析了HITs嵌入的分佈和特性,展示了其有效捕捉階層結構語義的能力。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Yuan He, Zha... ב- arxiv.org 10-01-2024
https://arxiv.org/pdf/2401.11374.pdfשאלות מעמיקות