核心概念
我們提出了一種新的方法,通過識別潛在空間中的代表性點並利用大型語言模型生成有意義的自然語言描述來解釋這些學習的嵌入。我們發現這種可解釋的空間與原始潛在空間的預測一致性最高,並通過人工評估證實了這些風格描述的效用作為對潛在空間的解釋。最後,我們發現當人類在作者歸屬任務中獲得我們系統的解釋時,其準確率平均提高了20%。
摘要
本文提出了一種新的方法來解釋基於嵌入的作者歸屬模型所學習的潛在空間。
首先,通過聚類相似的作者來識別潛在空間中的代表性點。然後,我們使用大型語言模型自動生成描述每個代表性點的寫作風格特徵。這些風格特徵構成了一個可解釋的空間,可用於解釋模型的預測。
我們對這種可解釋空間進行了自動和人工評估。自動評估表明,與其他基線方法相比,我們的方法在與原始潛在空間的預測一致性方面表現最佳。人工評估則證實,我們生成的風格描述確實反映了文本的寫作風格。
最後,我們發現當人類在作者歸屬任務中獲得我們系統的解釋時,其準確率平均提高了20%。這表明我們的解釋對於這一具有挑戰性的任務是有用的。
統計資料
作者使用修辭性問題來吸引讀者。
作者使用生動的形象和精確的措辭來增強敘述。
作者使用修辭性問題、平行結構和隱喻性詞語,引發分析和內省,同時營造出節奏感、想像力和思考性的語調。
引述
"作者使用修辭性問題來引發分析。"
"生動的形象和精確的措辭增強了敘述。"
"作者運用修辭性問題、生動的形象和精確的措辭,吸引讀者,引發反思和批判性思考,同時營造出富有交流性、富有感染力和富有思考性的語調。"