Grunnleggende konsepter
大型語言模型 (LLM) 在進行資訊訪談時,缺乏人類記者表現出的落地溝通和策略性對話能力,尤其在使用確認語句、提出高層次問題和進行有效說服方面存在顯著差距。
大型語言模型落地差距評估
這篇研究論文探討大型語言模型 (LLM) 在資訊訪談中的落地差距。作者建立了一個包含四萬份來自美國國家公共廣播電台 (NPR) 和有線電視新聞網 (CNN) 的雙人資訊訪談資料集,並設計了一個模擬訪談的遊戲環境 NewsInterview。
研究發現
與人類記者相比,LLM 較少使用確認語句,也較少回到高層次問題。
LLM 在識別問題是否得到解答和有效說服資訊來源方面表現不佳,導致資訊提取效果不理想。
研究貢獻
發布了一個高品質的資訊訪談資料集,可用於研究落地溝通。
詳細分析了 LLM 生成對話與人類記者之間的差異。
開發了一個遊戲環境來測試和改進資訊訪談中的對話代理。
研究結論
新聞訪談是研究有效溝通模式的寶貴資源,LLM 在落地溝通和策略性對話方面存在顯著差距,需要進一步提升其策略性對話能力。
Statistikk
資料集包含超過 40,000 份來自 NPR 和 CNN 的雙人資訊訪談。
與人類相比,LLM 使用確認語句的可能性降低了 50%,回到高層次問題的可能性降低了 30%。
在模擬環境中,資訊來源 LLM 在識別說服的準確率與人類有顯著相關性 (r = .43, p < .0001)。