Temel Kavramlar
대화 분석을 위한 수동 주석 작업의 한계를 극복하고자 LLM을 활용하여 화용론적 기능 요소를 자동으로 주석할 수 있는 가능성을 탐색하였다.
Özet
이 연구는 대화 분석을 위한 수동 주석 작업의 한계를 극복하고자 LLM을 활용하여 화용론적 기능 요소를 자동으로 주석할 수 있는 가능성을 탐색하였다. 구체적으로 GPT-3.5(ChatGPT의 모델)와 GPT-4(Bing 채팅봇의 모델)의 사과 화행 주석 성능을 비교하였다.
연구 결과, GPT-4/Bing이 GPT-3.5/ChatGPT에 비해 우수한 성능을 보였다. GPT-4/Bing은 주석 태그 사용의 정확성과 주석 형식 준수 면에서 안정적이었다. 또한 GPT-4/Bing은 화용론적 기능 요소 주석에서 전반적으로 높은 정확도를 보였다.
GPT-4/Bing과 인간 주석자의 성능을 비교한 결과, GPT-4/Bing은 인스턴스 수준 정확도 92.7%로 인간 주석자(95.4%)와 근접한 수준을 보였다. 태그 수준에서는 고정적인 언어 형식과 연결된 기능 요소(APOLOGISING, APOLOGISER)에서 높은 정확도를 보였지만, 보다 다양한 언어 자원으로 실현되는 기능 요소(REASON, APOLOGISEE)에서는 상대적으로 낮은 성능을 보였다.
이 연구 결과는 LLM이 화용론적 말뭉치 주석 작업을 자동화하는 데 성공적으로 활용될 수 있음을 시사한다. 이를 통해 기존의 수동 주석 작업의 한계를 극복하고 대규모 기능-형식 연구의 가능성을 열 수 있을 것으로 기대된다.
İstatistikler
사과 화행 주석 정확도: GPT-4/Bing 92.7%, 인간 주석자 95.4%
APOLOGISING 태그 F1 점수: GPT-4/Bing 99.95%, 인간 주석자 99.95%
REASON 태그 F1 점수: GPT-4/Bing 91.91%, 인간 주석자 89.27%
APOLOGISEE 태그 F1 점수: GPT-4/Bing 89.74%, 인간 주석자 93.67%