核心概念
本文提出了一種結合監督學習和離線強化學習的方法,利用成功率和 BLEU 評估指標作為獎勵函數, fine-tune 預先訓練好的 GPT-2 語言模型,以構建更有效的多領域任務導向對話系統,並在 MultiWOZ2.1 數據集上取得了顯著的性能提升。
論文概述
本研究論文探討了如何利用離線強化學習技術來改進多領域任務導向對話系統。傳統上,任務導向對話系統採用管道式方法,將系統分為多個獨立模組進行訓練,但這種方法存在誤差累積和訓練困難等問題。近年來,端到端訓練的任務導向對話系統逐漸興起,利用預先訓練好的大型語言模型(LLM)可以直接將輸入映射到輸出,簡化了訓練過程。然而,基於監督學習的 LLM 微調方法容易出現曝光偏差和詞彙損失問題,導致模型偏離用戶任務目標。
研究方法
為了解決上述問題,本研究提出了一種結合監督學習和離線強化學習的 LLM 微調方法。具體而言,研究人員採用預先訓練好的 GPT-2 語言模型作為基礎模型,並設計了一個基於成功率和 BLEU 評估指標的非微分獎勵函數。通過在 MultiWOZ2.1 數據集上進行實驗,結果表明該方法可以有效地引導語言模型生成更符合用戶任務目標且流暢連貫的系統回复。
主要貢獻
本研究的主要貢獻包括:
提出了一種利用離線強化學習優化單向預先訓練語言模型的方法,用於構建端到端的多領域任務導向對話系統。
設計了一個基於成功率和 BLEU 評估指標的獎勵函數,用於指導模型的訓練過程。
在 MultiWOZ2.1 數據集上進行了實驗,結果表明該方法在信息率和成功率方面均優於現有方法。
研究意義
本研究提出了一種有效的 LLM 微調方法,可以顯著提高任務導向對話系統的性能。該方法對於提升虛擬助手、客服機器人等應用場景下的用戶體驗具有重要意義。
統計資料
在 MultiWOZ2.1 數據集上,該方法的信息率比基準方法提高了 1.60%,成功率提高了 3.17%。
約 38% 的測試集對話的對話輪次大小在 7 到 8 之間,表明用戶任務通常在這個輪次內完成。
在對話輪次大小為 7 到 8 的情況下,該模型的性能提升最大。