Core Concepts
대형 언어 모델을 활용하여 도메인 간 전이 없이도 효과적인 대화 상태 추적을 달성할 수 있다.
Abstract
이 논문은 대형 언어 모델(LLM)을 활용하여 도메인 간 전이 없이도 효과적인 대화 상태 추적(DST)을 달성하는 새로운 접근법을 제안한다. 기존의 DST 방법은 도메인 특화 데이터 수집 및 모델 미세 조정이 필요했지만, 이 연구에서는 LLM의 기능 호출 기능을 활용하여 이러한 제약을 극복한다.
구체적으로, 각 도메인을 고유한 함수로 모델링하고, 대화 상황에서 해당 함수를 호출하는 방식으로 DST를 수행한다. 이를 위해 도메인 스키마를 함수 사양으로 변환하고, 이를 LLM의 시스템 프롬프트에 포함시킨다. 이를 통해 LLM은 적절한 함수를 선택하고 해당 함수의 인수를 생성할 수 있다.
실험 결과, 이 접근법은 기존 최첨단 모델인 ChatGPT를 능가하는 성능을 보였으며, 7B 및 13B 매개변수의 오픈소스 모델에서도 우수한 성능을 달성했다. 또한 소량의 다양한 대화 데이터로 미세 조정한 13B 매개변수 LLAMA2-CHAT 모델이 ChatGPT와 유사한 성능을 보였다. 이는 오픈소스 모델과 상용 모델 간의 격차를 해소하는 중요한 진전이다.
Stats
이 접근법은 기존 최첨단 모델인 ChatGPT를 5.6% 평균 JGA 향상시켰다.
GPT-3.5와 GPT-4의 개별 모델 성능을 각각 4.8%와 14% 향상시켰다.
13B 매개변수 LLAMA2-13B-CHAT 모델을 7,200개의 다양한 대화 데이터로 미세 조정하여 ChatGPT와 유사한 성능을 달성했다.
Quotes
"LLMs are increasingly prevalent in conversational systems due to their advanced understanding and generative capabilities in general contexts."
"Our experimental results demonstrate that our approach achieves exceptional performance with both modestly sized open-source and also proprietary LLMs."
"We have made the code publicly available."