我們提出了一種新的方法,通過識別潛在空間中的代表性點並利用大型語言模型生成有意義的自然語言描述來解釋這些學習的嵌入。我們發現這種可解釋的空間與原始潛在空間的預測一致性最高,並通過人工評估證實了這些風格描述的效用作為對潛在空間的解釋。最後,我們發現當人類在作者歸屬任務中獲得我們系統的解釋時,其準確率平均提高了20%。