本文提出了一種利用自然語言解釋來增強自然語言推理(NLI)模型對抗性強健性的方法。主要內容如下:
驗證了利用自然語言解釋作為一種模型無關的防禦策略,可以通過對解釋進行微調而不是直接對前提-假設輸入進行微調,在各種對抗性攻擊下實現強健性。
由於沒有標準的策略來測試生成解釋的語義有效性,因此研究了widely used的語言生成指標與人類感知之間的相關性,以便它們可以作為強健NLI模型的代理。
該方法資源效率高且可重複,不受計算能力限制的影響。
總的來說,本文提出了一種簡單有效的方法來解決NLI的對抗性脆弱性問題,即利用ExplainThenPredict框架生成解釋,並以此預測最終標籤。實驗結果表明,與不使用解釋的基線相比,生成的解釋可以顯著提高模型的對抗性強健性。
翻譯成其他語言
從原文內容
arxiv.org
深入探究