核心概念
本研究評估四種開源大型語言模型(LLM)在論證探勘(AM)子任務上的表現,發現這些模型在論證性話語單元分類和論證關係分類任務中展現出良好的性能,並探討了上下文提示和示範數量對模型性能的影響。
摘要
開源大型語言模型於論證探勘子任務之評估
本研究旨在評估四種開源大型語言模型(LLM)在論證探勘(AM)子任務上的能力,包括 Mistral 7B、Mixtral 8x7B、LlamA2 7B 和 LlamA3 8B。研究人員使用了三個不同的語料庫:勸說性文章(PE)、論證性微文本(AMT)第一部分和第二部分,並基於兩個論證探勘子任務進行評估:(i) 論證性話語單元分類(ADUC)和 (ii) 論證關係分類(ARC)。
研究方法
研究採用零樣本和少樣本學習場景,並設計了兩種提示方法:
- 基本提示: 要求模型獨立分類每個論證性話語單元(ADU),不考慮整體上下文。
- 上下文感知提示: 要求模型根據文本中的上下文對每個 ADU 進行分類。
研究結果
- 在零樣本學習中,上下文提示通常能提高大多數模型和數據集的 ARC 性能,但在 ADUC 任務中,上下文提示對某些模型的性能產生負面影響。
- 在少樣本學習中,上下文感知提示可以將所有模型的 ADUC 任務性能提升到相似水平,並顯著減少 AMT1 和 AMT2 數據集之間的性能差異。
- 對於 ARC 任務,上下文感知提示可以穩定模型性能,減少不同示範數量造成的性能波動。
研究結論
- 開源大型語言模型在 ADUC 和 ARC 任務中表現良好,尤其在 ARC 任務中表現出色。
- 上下文提示有助於模型更好地理解句子之間的關係,並提高 ARC 任務的性能。
- 示範數量對模型性能的影響有限,但上下文感知提示可以穩定模型性能。
研究限制與未來方向
- 研究僅關注論證探勘的兩個核心子任務,未來需探討其他子任務,如論證組成部分的識別和論證質量的評估。
- 研究僅使用英文論證語料庫,未來應探索其他語言,特別是資源較少的語言。
統計資料
AMT1 語料庫包含 112 篇短文本(每篇約 3-5 句)和 576 個論證性話語單元。
AMT2 語料庫包含 171 篇短文本和 932 個論證性話語單元。
PE 語料庫包含 402 篇論證性文章(共 2235 個段落)。
引述
"Unlike many NLP problems, argumentation mining (AM) is not a single, straightforward task but rather a collection of interrelated subtasks."
"AM enhances sentiment analysis by delving deeper into the reasoning behind opinions."
"While sentiment analysis identifies 'what people think about entity X,' AM explores 'why people think Y about X.'"