이 논문은 대형 언어 모델(LLM)의 말장난 이해 능력을 체계적으로 평가하였다. 말장난 인식, 설명, 생성의 세 가지 과제를 통해 LLM의 성능을 분석하였다.
말장난 인식 과제에서는 LLM이 편향된 프롬프트에 영향을 받는 것으로 나타났다. 말장난 설명 과제에서는 대부분의 LLM이 동음이의어 말장난보다 유사발음 말장난을 설명하는 데 어려움을 겪었다. 말장난 생성 과제에서는 LLM이 말장난의 핵심 요소를 결합하지 못하고 단순히 단어를 나열하는 "게으른 말장난 생성" 패턴을 보였다.
그러나 GPT-4-Turbo와 Claude-3-Opus와 같은 강력한 LLM은 말장난 설명에서 인간을 능가하고 말장난 생성에서도 우수한 성과를 보였다. 이 연구 결과는 LLM의 말장난 이해 능력 향상을 위한 향후 연구 방향을 제시한다.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Zhijun Xu,Si... pada arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.13599.pdfPertanyaan yang Lebih Dalam