核心概念
韓国の会話における皮肉検出タスクのための新しいデータセット「KoCoSa」を紹介します。
要約
この論文では、韓国の会話における皮肉検出タスク向けの新しいデータセット「KoCoSa(Korean Context-aware Sarcasm Detection Dataset)」を紹介しています。データセットは12.8K件の日常的な韓国語対話から成り、最後の応答に対するラベルが含まれています。データセット構築には、大規模言語モデルを活用した効率的な流れが提案されており、自動および手動フィルタリング、人間アノテーションが行われました。さらに、提案されたデータセットでGPTモデルなどを使用したベースラインパフォーマンスも提供されています。
Abstract:
- 皮肉は言葉の反転であり、コンテキスト(つまり、対話履歴)を反映する必要がある。
- 新しい韓国語対話皮肉検出タスク向けデータセット「KoCoSa」を導入。
- データ生成パイプラインとして大規模言語モデルと人間修正を活用。
- 韓国語皮肉検出タスク向けシンプルかつ効果的なベースラインも提供。
Introduction:
- 会話システム開発時に皮肉を誤解することは致命的なエラーにつながる可能性あり。
- コンテキストが重要であり、十分なコンテキストが存在しない場合、皮肉検出タスクは困難。
Related Work:
- 英語以外の言語向けのデータセットや研究も進行中。
- 韓国語向け唯一のデータセット「Kocasm」はコンテキスト不足。
Data Extraction:
- "KLUE-RoBERTa"と"GPT"モデルを使用した実験結果が示されている。
統計
12.8K件の日常的な韓国語対話から成る「KoCoSa」データセット。
GPT-3.5よりも優れた性能を示す基準システム。
KLUE-RoBERTa(Park et al., 2021)はGPT-3.5よりも優れた性能を発揮。