Core Concepts
大規模言語モデルを使用して、ユーモア検出のための合成データセットを生成する能力を探求しました。
Abstract
最近の自然言語処理の進歩にもかかわらず、ユーモア検出は依然として難しいタスクであり、その原因は面白いテキストと同様の非面白い対応物が不足していることです。研究では、大規模言語モデル(LLMs)がテキストを編集してユーモア検出用の合成データを生成できるかどうかを調査しました。既存の人間データセットでLLMsを評価し、現在のLLMsが「面白くない」ジョークを印象的に表示し、人間によって判断された能力やユーモア検出タスクで測定された能力を示しました。また、英語-ヒンディー混合コードのユーモアデータセットにもこの手法を拡張し、GPT-4の合成データがバイリンガル注釈者から高く評価されており、他のコーパスでトレーニングされたモデルにとって挑戦的な敵対的な例を提供することがわかりました。
Stats
テストセット内でGPT-4から生成されたUnfunテキストは人間が編集したテキストと一致する場合がある。
GPT-4 Unfun生成では元々面白いテキストから派生したものでも非面白いと分類される場合がある。
英語-Hindi混合コードの自動評価結果では、異なる割合の合成非面白いデータで訓練された笑い分類器は元のデータセット上でパフォーマンスが向上する。
Quotes
"Despite their success on natural language tasks, large language models (LLMs) struggle to reliably detect and explain humor."
"Validating and harnessing this capability could provide large paired datasets and support future work on improving humor detection and even generation."
"Our results indicate that current LLMs struggle to generate humor, but can outperform crowd-workers at editing away (or unfunning) humor."