本文提出了一種新的方法來解釋基於嵌入的作者歸屬模型所學習的潛在空間。
首先,通過聚類相似的作者來識別潛在空間中的代表性點。然後,我們使用大型語言模型自動生成描述每個代表性點的寫作風格特徵。這些風格特徵構成了一個可解釋的空間,可用於解釋模型的預測。
我們對這種可解釋空間進行了自動和人工評估。自動評估表明,與其他基線方法相比,我們的方法在與原始潛在空間的預測一致性方面表現最佳。人工評估則證實,我們生成的風格描述確實反映了文本的寫作風格。
最後,我們發現當人類在作者歸屬任務中獲得我們系統的解釋時,其準確率平均提高了20%。這表明我們的解釋對於這一具有挑戰性的任務是有用的。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies