이 논문은 대형 언어 모델(LLM)의 말장난 이해 능력을 체계적으로 평가하였다. 말장난 인식, 설명, 생성의 세 가지 과제를 통해 LLM의 성능을 분석하였다.
말장난 인식 과제에서는 LLM이 편향된 프롬프트에 영향을 받는 것으로 나타났다. 말장난 설명 과제에서는 대부분의 LLM이 동음이의어 말장난보다 유사발음 말장난을 설명하는 데 어려움을 겪었다. 말장난 생성 과제에서는 LLM이 말장난의 핵심 요소를 결합하지 못하고 단순히 단어를 나열하는 "게으른 말장난 생성" 패턴을 보였다.
그러나 GPT-4-Turbo와 Claude-3-Opus와 같은 강력한 LLM은 말장난 설명에서 인간을 능가하고 말장난 생성에서도 우수한 성과를 보였다. 이 연구 결과는 LLM의 말장난 이해 능력 향상을 위한 향후 연구 방향을 제시한다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Zhijun Xu,Si... lúc arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.13599.pdfYêu cầu sâu hơn