Główne pojęcia
대규모 언어 모델의 화용론적 능력을 Grice의 대화 격률을 기반으로 평가하여, 모델의 문맥 이해 및 함축적 의미 추론 능력을 분석하였다.
Streszczenie
이 연구는 대규모 언어 모델(LLM)의 화용론적 능력을 체계적으로 평가하였다. Grice의 대화 격률(양, 질, 관련성, 방식)을 기반으로 한 120개의 테스트 문항을 개발하였다. 이를 통해 GPT-4, HyperCLOVA X, Gemini-Pro, GPT-3.5, LDCC-Solar 등 다양한 LLM의 성능을 다각도로 분석하였다.
실험 결과, GPT-4가 전반적으로 가장 우수한 성능을 보였다. 특히 문맥 이해와 함축적 의미 추론 능력이 뛰어났다. HyperCLOVA X는 한국어 특화 모델로서 GPT-4와 유사한 수준의 성과를 보였다. 반면 LDCC-Solar는 문자 그대로의 해석에 치우치는 경향을 보였다.
추가로 few-shot 학습과 Chain-of-Thought 기법의 영향을 분석하였다. Few-shot 학습은 대체로 성능 향상에 기여했지만, Chain-of-Thought는 오히려 문자적 해석에 치우치게 하는 경향이 있었다. 이는 화용론적 추론이 문맥에 내재된 암시적 의미에 의존하기 때문인 것으로 보인다.
이 연구는 LLM의 화용론적 능력 평가를 위한 새로운 접근법을 제시하고, 한국어 LLM의 현재 수준과 향후 발전 방향을 제시하였다. 향후 연구에서는 테스트 문항 규모 확대와 다국어 평가 확장을 통해 더욱 포괄적인 화용론적 능력 평가 체계를 구축할 계획이다.
Statystyki
"우리집 강아지가 더 잘 한다."
"우리 작은 아버지께서 제주도에 사셔."