Ðoković, L., & Robnik-Šikonja, M. (2024). Sarcasm Detection in a Less-Resourced Language. Information Society 2024, 7–11 October 2024, Ljubljana, Slovenia.
本研究旨在探討如何為資源較少的語言(以斯洛維尼亞語為例)建立反諷語偵測模型,並比較不同模型在偵測反諷語方面的效能差異。
由於缺乏斯洛維尼亞語的反諷語料庫,本研究首先利用機器翻譯技術,將英文反諷語料庫 iSarcasmEval 翻譯成斯洛維尼亞語。接著,研究人員使用多種不同規模的預訓練語言模型(包括 SloBERTa、多語言 BERT、XLM-RoBERTa、Llama 3.1 和 GPT 模型)進行反諷語偵測實驗,並比較其效能差異。此外,研究人員還嘗試使用模型組合技術,以提升反諷語偵測的準確度。
研究結果顯示,大型語言模型(如 GPT-3.5-TURBO-0125)在反諷語偵測方面表現最佳,其 F1 分數達到 0.76。相較之下,較小的模型或多語言模型的效能則較差。此外,研究發現使用模型組合技術可以略微提升反諷語偵測的效能,其中以使用正規化邏輯迴歸進行模型堆疊的效果最佳。
本研究證明利用機器翻譯和大型語言模型,可以有效地為資源較少的語言建立反諷語偵測模型。研究結果顯示,模型規模與反諷語偵測效能呈正相關,而模型組合技術則有助於進一步提升效能。
本研究對於資源較少的語言處理領域具有重要意義,為開發更精準的反諷語偵測工具提供了新的思路和方法。
本研究使用的斯洛維尼亞語反諷語料庫規模較小,未來可以建立更大規模、更多樣化的語料庫,以提升模型的泛化能力。此外,未來研究可以探討如何將其他語言特徵(如語氣、語調等)融入反諷語偵測模型中,以進一步提升模型的準確度。
翻譯成其他語言
從原文內容
arxiv.org
深入探究