本文分析了兩種不同的關係編碼策略:
實體嵌入策略([H,T]):將關係嵌入定義為頭實體和尾實體最後一層嵌入的拼接。這種方法主要捕捉實體類型,而忽略了關係本身的資訊,容易產生錯誤分類。
遮罩嵌入策略(Mask):使用[MASK]標記來直接學習關係嵌入。這種方法雖然更直觀,但由於無法充分捕捉實體類型資訊,因此效果較差。
為了結合兩種方法的優勢,作者提出了一種混合策略([H,T]+Mask)。在預訓練階段,同時優化[H,T]和Mask嵌入,在fine-tuning時則將兩種嵌入拼接作為輸入。
實驗結果顯示,該混合策略在多個基準測試上均優於現有最佳方法。作者還發現,即使使用預訓練的實體嵌入(而非fine-tuned的[H,T]嵌入),效果也不會下降,進一步證實了實體類型資訊的重要性。
此外,作者還探索了一種基於共指鏈的自監督預訓練策略,進一步提升了模型性能。
總的來說,本文提出了一種新穎而有效的關係抽取方法,為該領域帶來了重要貢獻。
翻譯成其他語言
從原文內容
arxiv.org
深入探究