指令數據對於提高大型語言模型(LLM)與人類水平的性能是至關重要的。近期研究表明,對齊本質上是模型適應指令的交互方式或格式以解決各種任務的過程,利用預訓練的知識和技能。因此,對於指令數據而言,最重要的是它所代表的任務,而不是具體的語義和知識信息。指令的潛在表示在一些與指令相關的任務中發揮作用,如數據選擇和示範檢索。然而,它們通常是從文本嵌入衍生的,包含整體語義信息,這影響了任務類別的表示。本文提出了一個新的概念"指令嵌入",並構建了指令嵌入基準(IEB)用於其訓練和評估。我們提出了一種基於提示的指令嵌入(PIE)方法,使表示更多地關注任務。在IEB上對PIE及其他嵌入方法的評估,以及在四個下游任務中的應用,都證明了其在準確識別任務類別方面的優越性。


coremsg

指令嵌入-指令的潛在表示及其在任務識別中的應用


指令嵌入:指令的潛在表示及其在任務識別中的應用